利 深 深 
用 入 入 
数 讲 探 
据 解 究 
挖 数 数 
掘 据 据 
算 挖 挖 
法 掘 掘 
和 各 之 
辫 个 有 
写 环 效 
5 节 江 
上 技 具 
进 术 
行 

数 

据 

分 

析 


过， 
22 


解 


局 
Vo) 


必 
; 


器 
米 游 禹 次 9V1IVW 


4 
3 












Sg - 


pe 





测 ” 薄 团 节 


站 典 


党 油 版 二 
京 


PT A | 
FRU AN PIE HA NT 
sn ee Ny 
We 


局 。 
< 


洲 游 自 和 9V1IVW 


解 


be 













SG 


EN 
A 









内 容 简 介 


大 数据 时 代 ， 我 们 需要 对 各 种 海量 数据 进行 第 选 、 清 洗 、 挖 气 ， 在 这 个 过 程 中 ， 获 取 有 效 数据 的 方式 
方法 和 模型 算法 成 为 了 整个 数据 挖 抉 过 程 的 重点 ，MATLAB 作为 一 个 数据 挖掘 工具 ， 如 何 正确 和 准确 地 
使 用 它 成 为 了 重 中 之 重 。 

针对 实际 应 用 数据 挖掘 技术 的 要 求 ,， 本 书 既 介 绍 了 数据 挖掘 的 基础 理论 和 技术 ， 又 较为 详细 地 介绍 了 
各 种 算法 以 及 MATLAB 程序 。 本 书 共 分 4 篇， 分 别 介绍 了 数据 挖掘 的 基本 概念 、 技 术 与 算法 以 及 应 用 实 
例 。 期 望 通过 大 量 的 实例 分 析 帮 助 广大 读者 掌握 数据 挖掘 技术 ， 并 应 用 于 实际 的 研究 中 ， 提 高 对 海量 数据 
信息 的 处 理 及 挖掘 能 力 。 本 书 针 对 性 和 实用 性 强 ， 具 有 较 高 的 理论 和 实用 价值 。 

本 书 作 者 就 职 于 部 队 高 校 ， 专 攻 数 据 挖 据 ， 并 应 用 于 大 量 实际 项 目 ， 本 书 同 时 得 到 了 国内 著名 数据 挖 
据 公 司 的 技术 支持 ， 很 多 案例 来 自 实际 项 目 。 

本 书 可 作为 高 等 院 校 计算 机 工程 、 信 息 工 程 、 生 物 医学 工程 、 化 学 、 环 境 、 经 济 、 管 理 等 学 科 的 研究 
生 、 本 科 生 的 教材 或 教学 参考 书 ， 亦 可 作为 企 事业 单位 管理 者 、 信 息 分 析 人 员 、 市 场 营 销 人 员 和 研究 与 开 
发 人 员 的 参考 资料 。 
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前 言 


计算 机 技术 和 通信 技术 的 迅猛 发 展 将 人 类 社会 带 入 了 信息 时 代 , 在 最 近 十 几 年 里 数据 库 中 存 
储 的 数据 量 急剧 增 大 。 网 络 经 济 、 注 意 力 经 济 等 新 概念 的 提出 ， 以 其 巨大 的 社会 效益 和 极 富 挑 战 
与 机 遇 的 内 洱 , 成 为 信息 科学 引信 注 目的 研究 课题 。 大 量 的 信息 在 给 人 们 提供 方便 的 同时 也 带 来 
了 一 系列 的 问题 ， 由 于 信息 量 过 大 , 超出 了 人 们 掌握 、 理 解 信息 的 能 力 ， 因 而 给 正确 运用 信息 带 
来 了 困难 。 诸 如 信息 过 量 、 难 以 消化 ; 信息 真 假 难以 辨识 ; 信息 安全 难以 保证 ; 信息 形式 不 一 致 ， 
难以 统一 处 理 ， 等 等 ， 造 成 了 “数据 丰富 ， 知 识 贫乏 ”。 

决策 者 很 难 从 海量 的 数据 中 提取 出 有 价值 的 知识 , 促使 人 们 产生 了 对 数据 分 析 工具 的 强烈 需 
求 ， 如何 理解 已 有 的 历史 数据 并 用 以 预测 未 来 的 行为 ， 如何 从 这 些 海量 数据 中 发 现 信息 ， 变 被 动 
的 数据 为 主 支 的 知识 , 如 何 快速 、 准 确 地 获得 有 价值 的 网 络 信息 和 网 络 服务 , 为 用 户 提供 重要 的 、 
未 知 的 信息 或 知识 、 指 导 政府 决策 、 企 业 决 策 、 获 取 更 大 的 经 济 效益 和 社会 效益 ， 这 些 都 迫使 人 
们 去 寻找 新 的 、 更 为 有 效 的 数据 分 析 手 段 ,对 各 种 “数据 矿藏 ”进行 有 效 的 挖掘 以 发 挥 其 应 用 潜 
能 ，20 世纪 80 年 代 后 期 至 今 ， 数 据 挖掘 正 是 在 这 样 的 应 用 需求 背景 下 产生 并 迅速 发 展 起 来 的 ， 
它 是 开发 信息 资源 的 一 套 科 学 方法 、 算 法 及 软件 工具 和 环境 。 

利用 数据 分 析 工 具 所 获取 的 信息 和 知识 ， 可 以 广泛 地 用 于 商务 管理 、 生 产 控制 、 市 场 分 析 、 
工程 设计 和 科学 研究 与 探索 等 诸多 方面 。 它 不 仅 是 一 个 重要 的 研究 领域 而且 在 现实 世界 具有 重 
大 的 潜在 应 用 价值 。 

数据 挖掘 技术 涉及 人 工 智能 的 机 器 学 习 、 模 式 识别 、 数 据 库 与 数据 仓库 、 统 计 学 、 可 视 化 图 
形 学 等 各 个 领域 , 吸引 了 大 批 学 者 从 事 学 术 研究 和 工具 产品 的 开发 。20 世纪 90 年 代 中 后 期 ， 在 
国外 数据 挖掘 已 经 形成 高 潮 ， 我 国 研究 数据 挖掘 的 学 者 数量 也 在 迅速 增长 。 
由 于 数据 挖掘 是 一 门 新 兴 的 、 正 在 不 断 发 展 的 学 科 , 其 理论 仍然 不 成 熟 , 没有 完善 的 理论 体 
系 , 很 多 人 在 没有 经 历数 据 挖掘 成 熟 应 用 项 目的 情况 下 , 投入 到 这 方面 的 技术 探索 与 实践 工作 中 
来 , 效果 不 明显 , 使 得 他 们 对 于 数据 挖掘 的 许多 方面 都 在 打 问号 ,认为 数据 挖掘 是 虚 的 , 是 炒作 。 
实际 上 数据 挖掘 与 很 多 技术 一 样 是 一 项 很 实用 的 技术 , 它 必然 会 给 各 行 各 业 的 工作 带 来 高 效益 和 

从 应 用 的 角度 看 ， 数 据 挖掘 是 一 个 工具 ， 为 了 很 好 地 应 用 数据 挖掘 ， 首 先 要 了 解数 据 挖掘 ， 
尽量 掌握 数据 挖掘 的 技术 和 方法 ， 须 知道 什么 时 候 应 该 使 用 何 种 数据 挖掘 技术 ， 了 解 模 型 内 部 机 
制 , 这 样 才 可 以 知道 如 何 有 效 地 准备 建 模 所 用 的 数据 集 , 以 及 如 何 使 用 不 同 参 数 来 改进 模型 的 输 
出 结果 。 现 在 有 关 数 据 挖掘 的 书籍 越 来 越 多 ,但 这 些 书籍 理论 性 太 强 ， 满 篇 数学 公式 ， 即 使 给 出 
算法 ， 也 只 是 伪 代 码 ， 看 不 到 源 代 码 以 及 算法 的 实际 效果 和 各 种 算法 的 对 比 结果 ,而 且 应 用 实例 
很 少 ， 这 往往 使 大 多 数 读者 感到 困惑 ， 让 人 难以 理解 , 不 知 如 何 下 手 。 有 时 虽然 可 以 借助 现在 的 
专业 计算 机 软件 来 完成 数据 挖掘 工作 , 但 因 涉 及 知识 产权 保护 和 价格 等 因素 , 不 可 能 每 个 需要 进 
行 数据 挖掘 的 读者 都 能 拥有 此 类 软件 .对 大 多 数 读者 而 言 , 目前 确实 还 缺少 一 本 具有 较 强 系统 性 、 
可 比 性 和 实用 性 的 有 关 数 据 挖掘 的 参考 书 。 基 于 这 点 考虑 , 作者 撰写 了 本 书 ， 向 读者 介绍 各 种 数 



































外 实战 大 数据 一 一 MATLAB 数据 挖掘 详解 与 实践 


据 挖 掘 技术 、 方 法 及 基于 MATLAB 的 具体 算法 。 想 通过 系统 的 介绍 和 实例 分 析 ， 让 众多 的 读者 
不 仅 具备 数据 挖掘 的 理论 ,而 且 能 掌握 数据 挖掘 应 用 方法 , 可 以 在 各 自 的 学 科 实际 研究 中 了 予以 应 
用 ， 也 使 数据 挖掘 技术 更 易于 使 用 和 开发 。 

本 书 按照 理论 基础 、 实 现 步骤、 实例 三 部 分 内 容 进行 阐述 ， 避 免 空 洞 的 理论 说 教 ， 着 重 介绍 
应 用 实例 , 具有 较 强 的 指导 性 和 实用 性 , 使 读者 不 至 于 面 对 如 此 丰富 的 理论 和 方法 无 所 适 从 , 而 
是 通过 了 解 各 种 算法 的 实现 思路 和 方法 , 体会 算法 源 代码 的 意义 , 这 样 即使 所 举 的 实例 不 属于 读 
者 从 事 的 学 科 ， 也 能 举一反三 ， 掌 握 数据 挖掘 技术 并 应 用 于 自己 从 事 的 科学 研究 中 。 

本 书 分 为 4 篇 ， 每 篇 涵盖 的 内 容 比较 广泛 ， 既 有 对 数据 挖掘 概念 的 讨论 ， 也 有 对 数据 挖掘 
技术 和 原理 的 介绍 ， 而 且 编写 了 大 量 的 实例 , 并 给 出 了 相应 的 程序 。 第 1 篇 介绍 数据 挖掘 的 相关 
概念 以 及 在 多 个 领域 中 的 应 用 情况 ; 第 2 篇 介绍 数据 挖掘 算法 ,包括 人 工 神经 网 络 、 决 策 树 、 遗 
传 算法 、 关 联 分 析 、 统 计 分 析 方 法 、 支 持 向 量 机 及 一 些 聚 类 算法 ; 第 3 篇 介绍 与 数据 挖掘 相关 的 
一 些 技术 ， 包 括 数据 仓库 、 模 糊 集 理论 、 粗 糙 集 技术 、 目 标 优化 技术 、 可 视 化 技术 、 公 式 发 现 、 
多 媒体 数据 挖掘 技术 及 Web 数据 挖掘 技术 ; 第 4 篇 介绍 数据 挖掘 具体 应 用 实例 ， 重 点 介绍 数据 
预 处理 技 术 、 聚 类 、 分 类 、 预 测 、 关 联 规则 分 析 、 时 间 序 列 分 析 等 方法 。 

本 书 的 出 版 得 到 了 清华 大 学 出 版 社 的 大 力 支 持 , 编辑 栾 大 成 为 本 书 内 容 等 许多 方面 提出 了 宝 
贵 的 意见 。 书 中 参考 了 许多 学 者 的 研究 成 果 ， 在 此 一 并 表示 衷心 的 感谢 ! 

由 于 数据 挖掘 的 内 容 非 常 丰 富 , 所 涉及 的 学 科 也 较 多 , 且 限 于 作者 学 识 水 平 ， 书 中 难免 存在 
缺点 、 错 误 以 及 踢 漏 ， 敬 请 读者 批评 茎 正 。 

本 书 为 读者 提供 实例 中 给 出 的 MATLAB 程序 ， 需 要 者 可 登录 清华 大 学 出 版 社 网 站 ,注册 之 
后 进行 下 载 。 读 者 反馈 : xuggsx@sina.com 或 者 QQ 号 693131033， 作 者 随时 解答 读者 问题 。 
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第 1 篇 大 于 数据 挖掘 


第 章 
绪 论 


昌 实战 大 数据 一 一 MATLAB 数据 挖掘 详解 与 实践 


1.1 数据 挖掘 概述 


随 着 通信 、 计 算 机 、 网 络 技术 和 数据 库 技术 的 快速 发 展 , 以 及 日 常生 活 自 动 化 技术 的 普遍 应 
用 ， 如 超市 POS 机 、 自 动 售 货 机 、 信 用 卡 和 借 记 卡 、 在 线 购物 、 自 动 订单 处 理 、 自 动 售票 等 ， 
数据 正在 以 空前 的 速度 产生 和 被 收集 , 而 且 随 着 大 容量 、 高 速度 、 低 价格 的 存储 设备 的 相继 问世 ， 
人 们 获取 数据 、 存 储 数据 变 得 越 来 越 容易 ,数据 量 急剧 增 大 。 在 各 行 各 业 , 许多 公司 已 经 认识 到 
信息 的 重要 性 ， 信 息 即 为 财富 ， 信 息 即 为 竞争 优势 、 信 息 就 是 产品 正 逐 渐 成 为 共识 …… 

大 量 信 息 在 给 人 们 带 来 方便 的 同时 也 带 来 了 大 量 问 题 : 信息 匈 余 ; 信息 真 伪 难 辨 , 给 信息 的 
正确 应 用 带 来 困难 ; 网 络 上 的 信息 安全 难以 保障 ; 不 能 搜索 到 数据 中 的 深层 次 或 隐藏 的 规律 ; 信 
息 组 织 形式 的 不 一 致 ， 增 加 了 对 信息 进行 有 效 统一 处 理 的 难度 等 。 

缺少 如 何 从 海量 的 数据 中 提取 出 有 价值 知识 方法 的 现状 ,促使 人 们 产生 了 对 海量 数据 分 析 工 
具 的 强烈 需求 。 人 们 期 望 通过 数据 分 析 工 具 去 寻找 隐藏 在 海量 数据 之 后 或 网 络 上 的 更 深层 次 、 更 
重要 的 信息 ， 理 解 已 有 的 历史 数据 并 用 以 预测 未 来 的 行为 ， 获 得 有 价值 的 网 络 信息 和 网 络 服务 ， 
为 用 户 提供 重要 的 、 未 知 的 信息 或 知识 , 指导 政府 决策 、 企 业 决 策 以 获取 更 大 的 经 济 效益 和 社会 
效益 。 为 了 满足 人 们 对 数据 分 析 工 具 的 需求 ，20 世纪 80 年 代 后 期 至 今 ， 高 级 数据 分 析 一 一 基于 
数据 库 的 知识 发 现 (Knowledge Discovery in Database，KDD ) 及 相应 的 数据 挖掘 ( Data Mining， 
DM ) 理论 和 技术 应 运 而 生 。 

KDD 是 指 从 数据 中 发 现 有 用 知识 的 信息 和 模式 的 过 程 ， 包 含 数据 清理 、 数 据 集成 、 数 据 
选择 、 数 据 变换 、 数 据 挖 掘 、 模 式 评价 等 步 又， 最终 得 到 知识 。 这 个 过 程 的 输入 是 数据 ， 输 出 
则 是 用 户 期 望 的 有 用 信息 。 而 MD 是 指使 用 算法 来 抽取 信息 和 模式 , 是 KDD 过 程 的 一 个 步骤 ， 
也 是 发 现 中 的 核心 工作 。 虽 然 本 质 上 这 两 者 有 所 不 同 ， 事实 上 在 现今 的 文献 中 经 常 把 它们 等 同 
看 待 。 

数据 挖 气 可 以 从 技术 和 商业 两 个 层面 上 来 理解 。 从 技术 层面 上 看 , 数据 挖掘 是 探查 和 分 析 大 
量 数据 以 发 现 有 意义 的 模式 和 规则 的 过 程 。 从 商业 层面 上 看 , 数据 挖掘 就 是 一 种 商业 信息 处 理 技 
术 , 其 主要 特点 是 对 大 量 业 务 数据 进行 抽取 、 转 换 、 分 析 和 建 模 处 理 ， 从 中 抽取 辅助 商业 决策 的 
关键 性 数据 。 

数据 挖掘 与 传统 数据 分 析 方 法 ( 如 查询 、 报 表 、 联 机 应 用 处 理 等 ) 有 着 本 质 区 别 : 数据 挖掘 
是 在 没有 明确 假设 的 前 提 下 挖掘 信息 和 发 现 知识 。 数 据 挖掘 所 得 到 的 信息 具有 先前 未 知 、 有 效 和 
实用 三 个 特征 。 先 前 未 知 的 信息 是 指 该 信息 是 事先 未 曾 预料 到 的 , 即 数据 挖掘 是 要 发 现 那些 不 能 
靠 直觉 或 是 经 验 而 发 现 的 信息 或 知识 , 甚至 是 违背 直觉 的 信息 或 知识 。 挖掘 出 的 信息 越 是 出 乎 意 
料 ， 就 可 能 越 有 价值 。 

KDD 过 程 可 以 概括 为 三 部 分 : 数据 准备 、 数 据 挖 掘 及 结果 的 解释 和 评估 。 

数据 准备 又 可 分 为 三 个 子 步 又: 数据 选取 、 数 据 预 处 理 和 数据 变换 。 数 据 选取 是 指 确定 目标 
数据 ， 即 根据 用 户 的 需要 从 原始 数据 库 中 抽取 一 组 数据 。 数 据 预 处 理 一 般 包 括 消除 噪声 、 计 算 补 
齐 缺 值 数据 、 消 除 重复 记录 、 完 成 数据 类 型 转换 等 。 数 据 变换 是 指 消减 数据 维 数 或 降 维 ， 即 通过 
一 定 的 方法 ,减少 原始 特征 或 变量 的 个 数 ( 降 维 ) ， 以 减少 计算 工作 量 。 

数据 挖掘 阶段 首先 要 确定 挖掘 的 任务 或 目的 ， 即 KDD 要 发 现 的 知识 类 型 ， 如 数据 分 类 、 聚 
类 、 关 联 规则 发 现 等 ， 然 后 再 确定 挖掘 算法 。 在 选择 算法 时 既 要 考虑 数据 的 特点 ， 也 要 考虑 用 途 
或 实际 运行 系统 的 要 求 。 同 样 的 目标 可 以 选用 不 同 的 算法 来 解决 ， 要 做 到 算法 与 整个 KDD 过 程 
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的 评判 标准 相 一 致 。 

数据 挖掘 发 现 的 模式 ， 可 能 存在 元 余 或 无 关 的 模式 ， 或 者 是 不 能 满足 用 户 的 模式 ， 这 时 需 
要 进行 模式 的 解释 和 评估 ， 甚 至 重新 开始 一 个 KDD 过 程 ， 以 消除 元 余 或 无 关 的 模式 ， 或 产生 
新 的 模式 。 有 两 个 影响 因素 决定 数据 挖掘 过 程 的 质量 : 一 是 数据 挖掘 技术 的 有 效 性 ; 二 是 用 于 
挖掘 的 数据 的 质量 和 数量 。 错 误 的 数据 或 不 适当 的 属性 ， 以 及 数据 不 适当 的 转换 都 不 可 能 发 现 
有 效 的 模式 。 

可 视 化 技术 在 数据 挖掘 的 各 个 阶段 都 扮演 着 重要 的 角色 。 在 数据 准备 阶段 , 用 户 可 以 使 用 散 
点 图 、 直 方 图 等 统计 可 视 化 技术 来 显示 有 关 数 据 ， 以 期 对 数据 有 一 个 初步 的 了 解 ， 从 而 为 更 好 地 
选取 数据 打下 基础 。 在 挖掘 阶段 ， 用 户 则 要 使 用 一 些 专业 的 可 视 化 工具 ， 以 显示 数据 挖掘 过 程 。 
在 表示 结果 阶段 ， 则 要 用 可 视 化 技术 以 使 发 现 的 知识 更 易于 理解 。 

在 上 述 步骤 中 , 数据 挖掘 占据 非常 重要 的 地 位 , 它 主 要 是 利用 某 些 特 定 的 知识 发 现 算法 , 在 
一 定 的 运算 效率 范围 内 ， 从 数据 中 发 现 有 关 知 识 ， 从 而 帮助 人 们 在 数据 库 中 找到 最 重要 的 信息 ， 
预测 未 来 的 趋势 和 行为 ， 并 做 出 具有 知识 驱动 的 决策 ， 可 以 说 ， 它 决定 了 整个 KDD 过 程 的 效果 
与 效率 。 

很 显然 , 数据 挖掘 有 别 于 传统 的 数据 查询 、 报 表 及 全 文 检索 等 数据 分 析 工 作 , 它 常常 是 在 没 
有 前 提 假 设 的 情况 下 ,从 事 信息 的 挖掘 与 知识 的 提取 。 数 据 挖 掘 所 得 到 的 信息 结果 ,当然 不 一 定 
全 都 是 先前 未 知 的 。 

根据 数据 挖掘 的 定义 ， 典 型 的 数据 挖掘 系统 具有 如 下 组 成 部 分 。 

。 数据库、 数据 仓库 或 其 他 信息 库 : 这 是 一 个 或 一 组 数据 库 、 数 据 仓 库 、 电 子 表格 或 其 

他 类 型 的 信息 库 ， 可 以 在 此 数据 集 上 进行 数据 预 处 理 和 选取 。 

。 ”数据 库 或 数据 仓库 服务 器 : 根据 用 户 的 数据 挖掘 请 求 ， 数 据 库 或 数据 仓库 服务 器 负责 

提取 相关 数据 。 

。 知识 库 : 存放 领域 知识 ， 用 于 指导 搜索 或 评估 结果 模式 的 兴趣 度 。 这 种 知识 可 能 包括 

概念 分 层 及 用 户 确信 度 方面 的 知识 。 
。 ”数据 挖 据 引擎; 数据 挖掘 的 基本 组 成 部 分 ， 由 一 组 功能 模块 组 成 ， 用 于 特征 化 、 关 联 、 
分 类 、 聚 类 分 析 以 及 演变 或 偏差 分 析 。 

。 ”模式 评估 模块 : 通常 使 用 兴趣 度 来 测试 ， 并 与 数据 挖掘 模块 交互 ， 以 便 将 搜索 聚集 在 
有 趣 的 模式 上 。 可 以 使 用 兴趣 度 国 值 过 滤 所 发 现 的 模式 。 模 式 评估 模块 也 可 以 与 挖 气 
模块 集成 在 一 起 ， 其 不 同 在 于 所 用 的 数据 挖掘 方法 不 同 。 

。 ”图 形 用 户 界面 : 本 模块 在 用 户 和 数据 之 间 通 信 ， 人 允许 用 户 与 系统 交互 ， 指 定数 据 挖掘 

查询 或 任务 ， 提 供 信息 ， 帮 助 搜索 聚集 ， 根 据 数据 挖掘 的 中 间 结 果 进 行 探索 式 数 据 挖 
据 。 此 外 ， 该 模块 还 允许 用 户 浏览 数据 库 和 数据 仓库 模式 或 数据 结构 ， 评 估 挖 据 的 模 
式 ， 以 不 同 的 形式 进行 模式 可 视 化 。 

数据 挖掘 有 以 下 四 个 特点 。 

(1) 数据 挖掘 的 数据 量 是 非常 巨大 的 ， 因 此 ， 如 何 高 效率 地 存 取 数 据 ， 如 何 根据 一 定 应 用 
领域 找 出 数据 关系 即 高 效率 算法 以 及 是 使 用 全 部 数据 还 是 使 用 一 部 分 数据 随机 或 有 目的 地 选择 
出 的 数据 子 集 ， 都 成 为 数据 挖 据 要 考虑 的 问题 。 

(2 ) 数据 挖 据 面 临 的 数据 常常 是 为 其 他 目的 而 收集 好 的 数据 ， 因 此 在 收集 数据 时 ， 可 能 有 
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一 个 或 几 个 变量 未 被 收集 ， 但 这 些 变 量 在 后 来 数据 挖 据 时 被 证 明 是 有 用 的 ， 甚 至 是 至 关 重要 的 。 
也 就 是 说 ， 未 知性 和 不 完全 性 将 始终 伴随 数据 挖掘 的 整个 过 程 。 

(3 ) 数据 挖掘 算法 中 常常 不 事先 嵌入 先 验 知识 。 因 为 这 样 就 等 于 做 “假设 检验 ”。 新 颖 性 
是 衡量 一 个 数据 挖掘 算法 好 坏 的 很 重要 的 原因 ， 当 然 这 些 新 颖 性 的 结论 必须 是 可 以 被 人 们 理解 
的 ， 而 不 应 该 是 漫 无 边际 的 奇怪 结论 。 

(4 ) 数据 挖掘 中 的 规则 不 必 适 用 全 部 的 数据 ， 也 不 可 能 挖掘 出 普遍 适用 的 规则， 所 有 的 发 
现 都 是 相对 的 ， 并且 只 对 特定 的 商业 行为 具有 指导 意义 。 

数据 挖 据 是 一 个 交叉 的 学 科 领 域 , 包括 了 数据 库 技术 、 统 计 学 、 机 器 学 习 、 可 视 化 和 信息 科 
学 等 学 科 , 依赖 所 挖掘 的 数据 类 型 或 给 定 的 数据 挖掘 应 用 , 数据 挖掘 系统 也 可 能 集成 空间 数据 分 
析 、 信 息 检索 、 模式 识别 、 图 像 分 析 、 信 号 处 理 、 计 算 机 图 形 学 、Web 技术 、 数 据 可 视 化 及 经 济 、 
商业 、 生 物 信息 学 或 心理 学 等 领域 的 核心 技术 。 数 据 挖 掘 中 主要 采用 的 技术 有 人 工 神经 网 络 、 模 
糊 集 理论 、 粗 糙 集 理论 、 知 识 表示 、 归 纳 逻 辑 和 高 性 能 计算 等 。 通 过 数据 挖 握 ， 可 以 从 数据 仓库 
中 提取 有 趣 的 知识 、 规 律 和 信息 ， 并 可 以 从 不 同 的 角度 观察 和 浏览 。 所 发 现 的 知识 可 用 于 决策 、 
信息 管理 、 查 询 处 理 、 过 程 挖掘 等 。 数 据 挖掘 是 当今 信息 技术 学 科 最 前 沿 的 领域 之 一 。 


1.2 ”数据 挖掘 的 分 类 


数据 挖掘 是 一 个 交叉 性 的 学 科 领 域 , 涉及 统计 学 原理 、 模 式 识别 技术 、 可视化 理论 和 技术 等 。 
由 于 所 用 的 数据 挖掘 方法 的 不 同 ， 所 挖掘 的 数据 类 型 与 知识 类 型 的 不 同 、 数 据 挖掘 应 用 的 不 同 ， 
从 而 产生 了 大 量 的 、 各 种 不 同类 型 的 数据 控制 系统 。 

数据 挖 气 可 根据 数据 库 类 型 、 挖 掘 对 象 、 挖 掘 任务 、 挖 气 方 法 与 技术 以 及 应 用 等 方面 进行 分 类 。 


1. 根据 数据 库 类 型 分 类 


此 类 数据 挖掘 主要 是 在 关系 数据 库 中 挖掘 知识 。 随 着 数据 库 类 型 的 不 断 增 加 , 逐步 出 现 了 不 
同 数据 库 的 数据 挖掘 , 如 关系 数据 挖掘 、 历 史 数据 挖掘 、 空 间 数据 挖掘 、 数 据 仓库 的 数据 挖掘 等 。 


2. 根据 数据 挖掘 对 象 分 类 


数据 挖掘 的 对 象 除数 据 仓库 外 ， 还 有 多 媒体 数据 挖掘 、Web 数据 挖掘 、 文 本 数据 挖 握 等 。 
由 于 对 象 不 同 ,挖掘 的 方法 有 很 大 的 不 同 , 文本 、 多 媒体 、Web 等 均 是 非 结 构 化 数据 ,挖掘 难 度 
较 大 。 目 前 Web 数据 挖掘 已 引起 人 们 的 高 度 关注 。 


3. 根据 数据 挖掘 任务 分 类 


数据 挖掘 的 任务 有 关联 分 析 、 时 序 模式 、 聚 类 、 分 类 、 偏 差 检 测 、 预 测 等 ， 所 对 应 的 就 有 关 
联 规 则 挖掘 、 序列 模式 挖掘 、 聚 类 数据 挖掘 、 分 类 数据 挖掘 、 偏 差分 析 挖 气 和 预测 数据 挖掘 等 类 型 。 

数据 挖掘 还 可 以 按 所 挖掘 知识 的 粒度 或 抽象 层 进行 分 类 ,包括 采集 隐藏 于 目标 数据 集中 数据 
的 一 般 性 概括 知识 ( 高 抽象 层 ) 的 一 般 性 知识 挖掘; 采集 隐藏 于 原始 数据 层 中 的 数据 的 规律 性 ( 原 
始 数据 层 ) 的 原始 层 知 识 挖掘 ;采集 多 个 抽象 层 上 知识 的 多 层 知识 挖掘 等 。 
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4. 根据 数据 挖掘 方法 分 类 


根据 所 采用 的 数据 分 析 方 法 ， 如 面向 数据 库 的 方法 、 面 向 数据 仓库 的 方法 、 统 计 学 方法 、 模 
式 识别 方法 等 , 数据 挖掘 也 有 不 同 的 分 类 。 如 基于 概括 的 数据 挖掘 , 它 是 利用 数据 归纳 和 概括 工 
具 , 对 指定 目标 数据 的 一 般 特 征 和 高 层 知识 进行 概括 归纳 ; 基于 模型 的 数据 挖掘 ， 即 根据 预测 模 
型 挖掘 与 模型 相 匹配 的 数据 ; 基于 统计 学 的 数据 挖掘 , 即 指针 对 目标 数据 ,根据 统计 学 原理 进行 
数据 挖掘 。 


5. 根据 数据 挖掘 技术 分 类 


目前 ,基于 数据 挖 气 技 术 的 分 类 有 自动 数据 挖掘 、 证实 驱 动 挖掘 、 发 现 驱动 挖 气 和 交互 式 挖掘 等 。 

(1) 自动 数据 挖掘 是 指 自动 地 从 大 量 的 数据 中 发 现 未 知 的 、 有 用 的 模式 ， 是 数据 挖掘 的 高 
级 阶段 。 

(2 ) 证 实 驱动 数据 挖掘 是 指 用 户 根据 经 验 创 建 假 设 ( 或 模型 ) ， 然 后 使 用 证 实 驱动 操作 测 
试 假设 ( 或 挖掘 与 模式 匹配 的 数据 ) ， 测 试 的 过 程 即 为 数据 挖掘 的 过 程 。 所 抽取 的 信息 可 能 是 事 
实 或 趋势 , 操作 有 查询 和 报告 、 多 维 分 析 和 统计 分 析 。 其 中 , 查询 的 目的 是 有 效 地 表示 一 个 假设 ， 
而 报告 是 分 析 结果 的 说 明 。 多 维 分 析 针 对 每 一 维 的 层次 结构 , 利用 特定 的 查询 语句 和 可 视 化 工具 
进行 分 析 ; 统计 分 析 是 将 统计 学 与 数据 挖掘 和 可 视 化 技术 结合 进行 数据 分 析 。 

(3 ) 发 现 驱动 数据 挖掘 是 指 在 目标 数据 自动 创建 一 个 模型 ， 以 预测 将 来 的 行为 ， 模 型 创建 
的 过 程 即 为 数据 挖掘 的 过 程 。 所 挖掘 的 知识 可 能 是 回归 或 分 类 模型 、 数 据 库 记录 间 的 关系 、 误 差 
情况 等 。 发 现 驱动 数据 挖掘 的 操作 有 预测 模型 化 、 数 据 库 分 割 、 连 接 分 析 ( 即 关联 分 析 ) 和 偏差 
检测 。 

近年 来 ， 随 着 人 工 神经 网 络 和 人 工 智能 技术 的 渗透 ， 发 现 驱动 数据 挖掘 开始 了 广泛 的 应 用 。 

(4) 交互 式 数据 挖掘 是 指 利用 交互 式 处 理 方式 ， 逐 渐 明 确 数据 挖掘 的 目标 ， 动 态 改变 数据 
聚集 及 搜索 方式 ， 逐 步 加 深 数据 挖掘 过 程 的 一 种 数据 方法 。 


6. 根据 数据 挖掘 应 用 分 类 


根据 数据 挖掘 的 应 用 可 以 将 其 分 成 金融 数据 挖掘 ` 电 信 数 据 挖掘 、 股 票 市 场 数 据 挖 握 `_WWW 
数据 挖掘 等 。 不 同 的 应 用 通常 需要 集成 对 于 该 应 用 特别 有 效 的 方法 。 因 此 ,普通 的 、 全 功能 的 数 
据 挖掘 方法 并 不 一 定 适 合 特定 领域 的 数据 挖掘 任务 。 


1.3 ”数据 挖掘 的 过 程 


图 1.1 为 数据 挖掘 的 基本 过 程 。 但 由 于 数据 挖掘 的 复杂 性 ， 往 往 需 要 重复 以 上 的 某 些 过 程 。 
另外 , 各 过 程 之 间 都 有 直接 或 间接 的 关系 , 不 能 将 它们 截然 划分 。 例 如 数据 预 处 理 及 变换 就 包含 
了 线索 关系 的 挖掘。 
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图 1.1 数据 挖掘 的 基本 过 程 

数据 准备 阶段 包括 数据 收集 ( 集成 ) 和 预 处 理 。 原 始 数 据 的 采集 部 分 看 似 容易 旦 不 引 人 注 意 ， 
但 它 却 是 数据 挖掘 的 基础 , 要 耗 用 相当 大 的 人 力 和 物力 。 虽然 采用 较 小 规模 的 数据 集 也 有 可 能 完成 
数据 挖 据 ， 但 为 了 确保 挖掘 的 知识 的 准确 性 及 预测 性 ， 应 尽量 采集 和 利用 足够 多 的 原始 数据 。 

在 数据 采集 之 后 , 就 需要 对 数据 进行 选取 和 预 处 理 。 数据 选取 就 是 在 原始 数据 中 , 将 有 代表 
性 的 数据 提取 出 来 组 成 样本 。 预 处 理 就 是 将 一 些 不 完全 数据 、 品 声 数据 以 及 矛盾 数据 等 不 适合 
来 训练 和 学 习 的 数据 排除 在 样本 集 外 。 当 数据 结构 较为 简单 旦 合理 、 数 据 较为 齐全 时 ,可 以 直接 
利用 原始 数据 进行 数据 挖掘 , 但 挖掘 输出 结果 质量 并 不 能 保证 。 在 进行 数据 挖掘 前 对 数据 进行 必 
要 的 “整理 ( 预 处 理 ) ”和 “筛选 (选取 ) ”， 能 够 提高 数据 挖掘 的 效率 与 准确 性 。 

数据 转换 是 将 不 符合 数据 挖掘 算法 要 求 格式 的 数据 转换 成 一 定格 式 ， 或 对 数据 维 数 进行 降 
维 。 转 换 完成 后 ， 如 果 对 数据 样本 集 不 满意 ,就 应 该 返回 到 上 一 阶段 , 重新 对 原始 数据 进行 选取 
和 预 处 理工 作 ， 反 之 ， 进 行 下 一 步 。 

数据 仓库 是 一 种 数据 存储 的 有 效 形式 , 其 非常 有 利于 数据 挖掘 。 它 利 用 信息 技术 所 提供 的 海 
量 数据 存储 、 分 析 能 力 ， 将 数据 经 过 整理 、 规 划 而 建立 成 一 个 强大 的 数据 管理 智能 系统 ， 可 以 协 
助 数据 挖掘 以 及 决策 的 进行 。 

数据 仓库 建立 之 后 , 就 可 以 使 用 各 种 数据 挖掘 的 算法 。 首 先 根据 特定 的 问题 领域 的 性 质 , 选 
择 有 明显 区 分 意义 的 特征 , 这 常常 是 数据 挖掘 过 程 中 非常 关键 的 一 步 。 合 适 的 特征 向 量 以 及 维 数 ， 
能 保证 数据 挖掘 过 程 的 有 效 性 和 准确 性 , 不 会 浪费 计算 时 间 及 产生 过 拟 合 问题 。 完 整 的 数据 样本 
有 利于 选择 特征 ， 当 然 也 可 以 利用 先 验 知识 补 齐 缺 少 的 或 删除 不 合理 的 数据 。 例 如 分 类 问题 中 ， 
在 选择 或 设计 特征 向 量 时 ,应 选择 那些 容易 获得 、 对 不 相关 变换 保持 不 变 、 对 噪声 不 敏感 、 能 较 
易 区 分 不 同类 别 模式 的 特征 集 。 这 不 仅 是 一 个 技术 问题 , 也 是 一 个 经 验 问题 。 然 后 再 选择 合适 的 
模型 或 具体 算法 。 在 设计 算法 和 数据 结构 时 , 一 定 要 考虑 效率 问题 , 以 及 如 何 及 时 更 新 所 提出 的 
算法 以 适应 数据 库 的 变化 。 要 根据 问题 领域 和 数据 的 结构 、 算 法 的 特点 以 及 算法 的 计算 资源 消耗 
与 计算 复杂 度 等 因素 选择 较为 合理 的 挖掘 算法 。 一 个 理想 的 算法 不 仅 能 得 到 准确 的 知识 , 而 且 对 
计算 时 间 及 存储 容量 等 硬件 性 能 的 要 求 要 低 。 例 如 某 些 问题 中 ， 在 不 考虑 工程 上 约束 的 前 提 下 ， 
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确定 能 够 设计 一 个 性 能 非常 优秀 的 分 类 器 , 但 是 如 果 存 在 工程 上 的 约束 , 就 不 一 定 能 够 得 到 同样 
性 能 的 分 类 器 。 同 时 还 应 记 住 的 是 没有 一 种 通用 方法 可 以 解决 所 有 的 问题 。 一 般 认为 , 反复 试验 
和 基于 样本 的 方法 是 设计 模型 最 有 效 的 方法 。 

通过 数据 挖掘 算法 ,就 可 以 得 到 隐藏 在 数据 中 的 知识 , 并 用 此 对 已 往 的 数据 进行 验证 , 并 对 
发 展 趋势 进行 预测 。 如 果 验 证 或 预测 结果 不 理想 ,说 明 没有 得 到 所 需要 的 知识 , 则 需要 返回 到 上 
一 阶段 ， 甚 至 重头 来 过 ， 重 新 执行 上 述 过 程 。 


1.4 数据 挖掘 的 任务 
数据 挖掘 的 任务 有 如 下 7 类 。 
1. 概念 描述 


概念 描述 本 质 上 就 是 对 某 类 对 象 的 内 涵 特 征 进行 概括 。 概 念 描述 分 为 特征 化 描述 和 区 别 性 描 
述 。 前 者 是 指 描 述 目 标 类 数据 的 一 般 特 征 和 特性 的 汇总 ; 后 者 是 将 目标 类 对 象 的 一 般 特 性 与 对 比 
类 对 象 的 特性 进行 比较 。 


2. 关联 分 析 


关联 分 析 就 是 发 现 数据 特征 间 的 相互 依赖 关系 ,通常 是 在 给 定 的 数据 集中 发 现 频繁 出 现 的 模 
式 知识 (又 称 为 关联 规则 ) 。 若 两 个 或 多 个 数据 项 的 取 值 之 间 重 复出 现 日 概率 较 高 时 ， 就 存在 某 
种 关联 (或 依赖 关系 ) ， 即 从 一 个 元 素 A 的 值 可 以 推出 男 一 个 元 素 B 的 值 ， 这 里 的 元 素 可 以 是 
字段 , 也 可 以 是 字段 间 的 关系 。 这 样 就 可 以 建立 起 这 些 数据 项 的 关联 规则 。 例 如 买 面包 的 顾客 有 
90% 的 人 还 会 买 牛 奶 ， 这 就 是 一 条 关联 规则 。 若 根据 这 条 规则 ， 在 商场 中 将 面包 和 牛奶 放 在 一 起 
销售 ,可 以 提高 它们 的 销量 。 但 要 注意 的 是 关联 规则 并 不 是 因果 关系 ， 它 不 代表 实际 数据 或 现实 
世界 中 的 内 在 因果 关系 。 

在 大 型 的 数据 库 中 ,这 种 关联 规则 很 多 ， 需 要 进行 筛选 。 一 般 用 “支持 度 ” 和 “可 信 度 ”两 
个 国 值 来 淘汰 那些 无 用 的 关联 规则 。 

。 “支持 度 ” 表 示 该 规则 所 代表 的 事例 ( 元 组 ) 占 全 部 事例 (元 组 ) 的 百分比 ; 

。 “可 信 度 ”表示 该 规则 所 代表 事例 占 满 足 前 提 条 件 事例 的 百分比 。 


3. 时 间 序 列 分 析 


在 时 间 序列 分 析 中 , 数据 的 属性 值 是 随 着 时 间 不 断 变化 的 , 并 且 在 一 般 情况 下 , 时 间 间 隔 是 
相等 的 。 

时 间 序列 分 析 有 三 个 基本 功能 : 第 一 ， 使 用 距离 度量 来 确定 不 同时 间 序列 的 相似 性 ; 第 二 ， 
通过 检验 时 间 序 列 图 中 线 的 结构 来 确定 时 间 序列 的 行为 ; 第 三 , 利用 历史 时 间 序列 预测 数据 的 未 来 
数值 。 























4. 分 类 分 析 
分 类 分 析 是 数据 挖掘 中 一 项 非常 重要 的 任务 , 它 是 利用 已 知 数据 库 元 组 和 类 别 的 训练 样本 集 
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通过 相关 算法 找 出 一 个 类 别 的 概念 描述 ， 即 该 类 的 内 洱 描述 , 它 代表 了 该 类 别 的 整体 信息 , 一 般 
用 规则 或 决策 树 模式 表示 , 该 模式 把 数据 库 中 的 数据 项 映射 到 给 定 类 别 中 的 某 一 个 。 分 类 分 析 已 
广泛 应 用 于 用 户 行为 分 析 ( 受众 分 析 ) 、 风 险 分 析 、 生 物 科 学 等 领域 。 

类 的 内 涵 描 述 可 分 为 特征 描述 和 辨别 性 描述 。 特征 描述 是 对 类 中 对 象 的 共同 特征 的 描述 ; 辩 
别 性 描述 是 对 两 个 或 多 个 类 之 间 的 区 别 的 描述 。 特征 描述 中 允许 不 同类 具有 共同 特征 ， 而 辨别 性 
描述 中 不 同类 别 不 能 有 相同 的 特征 。 辩 别 性 描述 用 得 更 多 。 
前 ， 分 类 方法 的 研究 成 果 较 多 。 可 从 三 个 方面 判别 分 类 方法 的 好 坏 : 第 一 ， 预 测 准确 度 ， 
即 对 非 训练 样本 集 数据 的 判别 准确 度 。 第 二 ， 计 算 复 杂 度 ， 即 计算 分 类 时 时 间 和 空间 的 复杂 度 。 
第 三 ， 模 式 的 简洁 度 ， 在 同样 的 情况 下 ， 希 望 决 策 树 小 或 规则 少 。 























5. 聚 类 分 析 


聚 类 分 析 试图 找 出 数据 集中 数据 的 共性 和 差异 , 并 将 具有 共性 的 对 象 聚合 在 相应 的 簇 中 。 聚 
类 分 析 可 以 帮助 判断 哪些 组 合 更 有 意义 ， 已 广泛 应 用 于 客户 细 分 、 定 向 营销 、 信 息 检索 等 领域 。 

聚 类 分 析 与 分 类 分 析 不 同 。 在 聚 类 过 程 中 , 需要 划分 的 类 是 未 知 的 。 通 过 确定 数据 库 中 的 数 
据 之 间 在 预先 指定 的 属性 上 的 相似 性 ， 就 可 以 将 它们 划分 为 一 系列 有 意义 的 子 集 , 即 类 。 在 同一 
类 别 中 , 个 体 之 间 的 距离 较 小 ， 而 不 同类 别 的 个 体 之 间 的 距离 偏 大 。 聚 类 增强 了 人 们 对 现实 世界 
的 认识 ， 即 “ 物 以 类 聚 ”。 

聚 类 方法 包括 统计 分 析 方法 、 机 器 学 习 、 神 经 网 络 方法 和 面向 数据 库 的 方法 。 在 统计 学 的 研 
究 中 , 主要 集中 于 基于 距离 的 聚 类 分 析 , 在 这 里 距离 是 指 欧 氏 距离 、 马 氏 距 离 等 。 在 机 器 学 习 领 
域 ， 聚 类 是 无 监督 的 学 习 , 是 观察 式 学 习 , 在 这 里 距离 是 根据 概念 的 描述 来 确定 的 ， 故 也 称 概念 
聚 类 。 当 聚 类 对 象 动态 增加 时 ,概念 聚 类 则 称 为 概念 形成 。 在 数据 挖掘 中 的 聚 类 研究 主要 集中 在 
大 型 数据 库 中 的 聚 类 分 析 方法 的 构成 。 


6. 离 群 点 检测 


数据 库 中 的 数据 存在 很 多 异常 情况 , 从 数据 分 析 中 发 现 这 些 异 常情 况 也 是 非常 重要 的 , 它 也 
称 孤 立 点 分 析 。 异 常 包括 以 下 几 种 模式 : 不 满足 常规 类 的 异常 例子 、 出 现在 其 他 模式 边缘 的 奇异 
点 、 在 不 同时 刻 发 生 了 显著 变化 的 某 个 元 素 或 集合 、 观 察 值 与 模型 推测 出 的 期 望 值 之 间 有 显著 差 
异 的 事例 等 ,其 基本 思想 是 寻找 观察 结果 与 参照 量 之 间 的 有 意义 的 判别 ,参照 是 给 定 模型 的 预测 、 
外 界 提供 的 标准 或 另 一 个 观察 。 离 群 点 检测 已 广泛 应 用 于 ( 商业 、 金 融 、 保 险 等 领域 ) 欺诈 行为 
的 检测 、 网 络 入 侵 检测 、 反 洗钱 、 犯 罪 嫌疑 人 调查 、 海 关 、 税 务 稽查 等 领域 。 


7. 预测 


预测 是 利用 历史 数据 找 出 变化 规律 ， 建 立 模型 ， 并 用 此 模型 来 预测 未 来 数据 的 种 类 、 特 
征 等 。 

典型 的 预测 方法 有 回归 分 析 、 时 间 序 列 分 析 以 及 神经 网 络 分 析 等 。 回 归 分 析 是 利用 大 量 的 
历史 数据 ， 以 时 间 为 变量 建立 线性 或 非 线性 回归 方程 。 预 测 时 ， 只 要 输入 任意 的 时 间 值 ， 通 过 
可 归 方程 就 可 求 出 时 间 的 状态 。 时 间 序 列 分 析 是 在 分 析 序 列 结构 特点 的 基础 上 ， 利 用 参数 模型 
等 方法 以 过 去 的 数据 来 判定 一 个 变量 的 未 来 趋势 及 不 同 变量 间 同 期 或 前 后 期 的 关联 性 。 神 经 网 
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络 方法 能 实现 非 线性 样本 学 习 ， 能 进行 非 线 性 函数 的 判别 ， 既 可 以 用 于 连续 数值 也 可 以 用 于 离 
散 数值 的 预测 。 


1.5 ”数据 挖掘 的 对 象 


数据 挖掘 的 对 象 原则 上 可 以 是 各 种 存储 的 信息 。 目 前 的 信息 存储 方式 主要 包括 关系 数据 库 、 
数据 仓库 、 事 务 数据 库 、 高 级 数据 库 系统 等 的 各 种 数据 库 、 文 本 数据 、 图 像 、 视 频数 据 和 Web 
数据 。 其 中 ,高 级 数据 库 系统 包括 面向 对 象 数据 库 、 关 系 对 象 数据 库 以 及 面向 应 用 的 数据 库 ( 如 
空间 数据 库 、 时 态 数据 库 、 文 本 数据 库 、 多 媒体 数据 库 等 ) 。 


1.5.1 ”数据库 











1. 关系 数据 库 


关系 数据 库 由 表 组 成 ， 每 个 表 有 一 个 唯一 的 表 名 。 属 性 ( 列 或 域 ) 集合 组 成 表 结 构 ， 表 中 数 
据 按 行 存放 , 每 一 行 称 为 一 个 记录 。 记 录 间 通过 键 值 加 以 区 别 。 关 系 表 中 的 一 些 属性 域 描述 了 表 
间 的 关系 ， 这 种 语义 模型 就 是 实体 关系 模型 。 关 系数 据 库 是 目前 最 流行 、 最 常用 的 数据 库 之 一 ， 
为 数据 挖掘 研究 工作 提供 了 丰富 的 数据 源 。 


2. 数据 仓库 


数据 仓库 是 一 种 管理 技术 。 根 据 数 据 仓库 系统 构造 方面 的 设计 师 W.H.Inmon 对 数据 仓库 的 
定义 , 数据 仓库 就 是 面向 主题 的 、 集 成 的 、 非 易 失 性 的 、 随 时 间 变 化 的 数据 集合 ， 用 以 支持 管理 
人 员 的 决策 。 通 常 构造 数据 仓库 是 将 多 个 异种 数据 源 ( 如 关系 数据 库 、 一 般 文件 和 联机 事务 处 理 
记录 ) 集成 在 一 起 。 使 用 数据 清理 和 数据 集成 技术 ,确保 命名 约定 、 编 码 结构 、 属 性 度量 等 的 一 
致 性 。 非 易 失 性 是 指数 据 仓库 反映 的 是 历史 数据 的 内 容 ， 而 不 是 日 常事 务 处 理 产生 的 数据 , 数据 
经 加 工 和 集成 进入 数据 仓库 后 是 很 少 修改 或 根本 不 修改 的 , 供 管理 人 员 决策 分 析 使 用 。 随 时 间 变 
化 指数 据 仓库 是 不 同时 间 的 数据 集合 , 它 要 求 数据 仓库 中 的 数据 保存 时 限 以 满足 进行 决策 分 析 的 
需要 ， 而 且 数据 仓库 中 的 数据 都 要 标明 该 数据 的 历史 时 期 。 

数据 仓库 根据 多 维 数据 库 结 构建 模 , 每 一 维 代表 一 个 属性 集 , 每 个 单元 存在 一 个 属性 值 , 并 
提供 多 维 数据 视图 允许 通过 预计 计算 快速 地 对 数据 进行 总 结 。 尽管 数据 仓库 中 集成 了 很 多 数据 
分 析 工 具 ， 但 仍然 需要 像 数 据 挖掘 等 更 深层 次 、 自 动 的 数据 分 析 工 具 。 

需要 注意 的 是 数据 仓库 不 同 于 数据 库 。 数 据 仓库 是 一 种 解决 方案 , 是 对 原始 的 操作 数据 进行 
各 种 处 理 并 转换 成 有 用 信息 ， 用 户 可 以 通过 分 析 这 些 信息 做 出 策略 性 决策 。 因 此 ， 在 很 多 场合 ， 
数据 仓库 也 称 为 “决策 支持 系统 ”。 


3. 事务 数据 库 


一 个 事务 数据 库 由 文件 、 每 条 记录 代表 一 个 事务 。 典 型 的 事务 包含 唯一 的 事务 标识 , 多 个 项 
目 组 成 一 个 事务 。 事 务 数据 库 可 以 用 额外 附加 的 关联 表 来 记录 其 他 信息 , 比如 销售 方面 的 事务 交 
易 日 期 、 顾 客 ID 及 交易 发 生 的 部 门 等 信息 。 




















11 


实战 大 数据 一 一 MATLAB 数据 挖掘 详解 与 实践 


12 


4. 面向 对 象 数据 库 


面向 对 象 数据 库 是 基于 对 象 程序 设计 的 范例 , 其 每 一 个 实体 作为 一 个 对 象 。 与 对 象 相关 的 程 
序 和 数据 封装 在 一 个 单元 中 , 通常 用 一 组 变量 描述 对 象 , 等 价 于 实体 关系 模型 和 关系 模型 中 的 属 
性 。 对 象 通过 消息 与 其 他 对 象 或 数据 库 系统 进行 通信 。 对象 机 制 提供 一 个 模式 获取 消息 并 做 出 反 
应 的 手段 。 类 是 对 象 共享 特征 的 抽象 。 对 象 是 类 的 实例 , 也 是 基本 运行 实体 ， 可 以 把 对 象 按 级 别 
分 为 类 和 子 类 ， 实 现 对 象 间 属性 共享 。 


5. 关系 对 象 数据 库 


关系 对 象 数据 库 的 构成 基于 关系 对 象 模型 。 为 操作 复杂 的 对 象 , 该 模型 通过 提供 丰富 数据 类 
型 的 方法 进一步 扩展 了 关系 模型 。 在 关系 查询 语言 中 增加 了 新 增 类 型 的 检索 能 力 。 关系 对 象 数据 
库 在 工业 和 其 他 应 用 领域 使 用 越 来 越 普 遍 。 与 关系 数据 库 中 的 数据 挖掘 相 比 , 关系 对 象 数据 库 中 
的 数据 挖掘 更 强调 操作 复杂 的 对 象 结构 和 复杂 数据 类 型 。 


6. 空间 数据 库 


空间 数据 库 包 含 空间 关系 信息 ， 有 地 理 ( 地 图 ) 数据 库 、 医 学 图 像 数据 库 和 卫星 图 像 数据 库 
等 类 型 。 空间 数据 可 以 用 维 位 图 、 像 素 图 等 光栅 格式 表示 , 也 可 以 用 向 量 形式 表示 ( 例如 道路 、 
桥梁 、 建 筑 物 等 基本 地 理 结构 可 以 用 点 、 线 、 多 边 形 等 几何 图 形 表示 为 向 量 形式 ) 。 空 间 数 据 库 
中 的 数据 挖掘 可 以 提示 地 理 数 据 中 某 种 类 型 区 域 中 的 建筑 物 特征 , 也 可 以 揭示 医学 图 像 数 据 库 的 
图 像 信 息 与 对 应 的 疾病 间 的 关系 。 


7. 时 态 数据 库 和 时 间 序 列 数据 库 


时 态 数据 库 和 时 间 序 列 数据 库 均 存 储 与 时 间 有 关 的 信息 。 前 者 通常 存储 与 时 间 属 性 相关 的 数 
据 ， 这 些 属性 可 以 是 具有 不 同 语义 的 时 间 戳 ; 而 后 者 存储 的 是 随时 间 顺 序 变化 的 数据 。 数 据 挖掘 
技术 可 以 用 于 发 现 对 象 演变 特性 或 数据 库 中 数据 的 变化 趋势 , 时 间 可 以 是 财政 年 、 教 学 年 、 日 历 
年 等 ， 也 可 以 是 年 细 分 的 季度 或 月 。 

数据 库 具有 以 下 特点 。 

。 ”数据 动态 性 : 数据 的 动态 变化 是 数据 库 的 一 个 主要 特点 。 由 于 数据 的 存 取 和 修改 ,使 

数据 的 内 容 经 常 发 生变 化 ， 这 就 要 求 数 据 挖掘 方法 能 适应 这 种 变化 。 
。 ”数据 不 完整 性 : 数据 的 不 完整 性 主要 反映 在 数据 库 中 记录 的 域 值 丢失 或 不 存在 ( 空 值 )。 
这 种 不 完整 性 数据 给 数据 挖掘 带 来 了 困难 。 为 此 必须 对 数据 进行 预 处 理 、 填 补 该 数据 
域 的 可 能 值 。 

。 ”数据 噪声 : 由 于 数据 录入 等 原因 ， 造 成 错误 的 数据 ， 即 数据 噪声 。 含 噪声 的 数据 挖掘 
会 影响 抽取 模式 的 准确 性 ， 并 增加 了 数据 挖掘 的 难度 ， 可 以 用 概率 的 方法 消除 噪声 。 

。 ”数据 元 余 性 : 数据 元 余 性 表现 为 同一 信息 在 多 处 重复 出 现 。 函 数 依赖 是 一 个 通常 的 宛 
余 形 式 。 克 余 信息 可 能 造成 错误 的 数据 挖掘 ， 至 少 有 些 挖掘 的 知识 是 用 户 不 感 兴趣 的 。 
为 避免 这 种 情况 的 发 生 ， 数 据 挖掘 时 ， 需 要 知道 数据 库 中 有 哪些 固有 的 依赖 关系 。 

。 ”数据 稀 政 性 : 数据 稀 玻 性 表现 为 实例 空间 中 数据 稀 琉 ， 数 据 稀 朴 会 使 数据 挖 握 丢失 有 
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用 的 模式 。 
。 ”海量 数据 : 由 于 数据 库 中 的 数据 不 断 增长 ， 已 出 现 很 多 海量 数据 库 。 数 据 挖掘 方法 需 
要 逐步 适应 这 种 海量 数据 挖掘 ， 如 建立 有 效 的 索引 机 制 和 快速 查询 方法 等 。 


1.5.2 文本 


文本 是 用 文字 串 描述 对 象 的 数据 文件 。 这 里 的 文字 不 是 通常 所 说 的 简单 的 关键 字 , 可 能 是 长 
句子 或 图 形 ， 比 如 产品 说 明 书 、 出 错 或 调试 报告 、 和 警告 信息 、 简 报 等 文档 信息 。 

文本 分 析 包括 以 下 几 类 。 

。 ”关键 词 或 特征 提取 : 一 篇 文本 中 ， 标 题 是 该 文本 的 高 度 概括 。 标 题 中 的 关键 词 是 标题 
的 核心 内 容 。 关 键 词 的 提取 对 于 掌握 该 文本 的 内 容 至 关 重 要 。 文 本 中 的 特征 如 人 名 、 
地 名 、 组 织 名 等 是 某 些 文本 中 的 主体 信息 ， 特 征 提取 对 掌握 该 文本 的 内 容 很 重要 。 

。 ”相似 检索 : 文本 中 的 关键 词 的 相似 检索 是 了 解 该 文本 内 容 的 一 种 重要 方法 。 例 如 “ 专 
家 系统 ”与 “人 工 智能 ”两 个 关键 词 是 有 一 定 联系 的 ， 研 究 专 家 系统 的 文本 一 定 属于 
人 工 智能 的 研究 领域 。 

。 ”文本 聚 类 : 对 于 文本 标题 中 关键 词 ( 主题 词 ) 的 相似 匹配 是 对 文本 聚 类 的 一 种 简单 方 
法 。 定 义 关 键 词 的 相似 度 ， 将 便利 文本 的 简单 聚 类 ， 类 中 文本 满足 关键 词 的 相似 度 ， 
类 间 文 本 的 关键 词 超过 相似 度 。 

。 ”文本 分 类 ; 将 文本 分 类 到 各 文本 类 中 ， 一 般 需要 采用 一 个 算法 。 这 些 算法 包括 分 类 算 
法 、 近 邻 算法 等 。 这 需要 按 文本 中 的 关键 讯号 或 特征 的 相似 度 来 区 分 。 


1.5.3 ”图 像 与 视频 数据 


图 像 、 音 频 、 视 频 等 信息 存储 在 多 媒体 数据 库 中 。 多 媒体 数据 库 管理 系统 提供 在 多 媒体 数据 
库 中 对 多 媒体 数据 进行 存储 、 操 纵 和 检索 的 功能 ， 特 别 强调 多 种 数据 类 型 间 ( 如 图 像 、 声 音 ) 的 
同步 和 实时 处 理 ， 主要 应 用 在 基于 图 片 内 容 的 检索 、 语 音 邮件 系统 、 视 频 点 播 系统 。 多 媒体 数据 
挖掘 、 存 储 和 检索 技术 需要 集成 标准 的 数据 挖掘 方法 ,还 要 构建 多 媒体 数据 立方 体 ,运用 基于 模 
式 相似 匹配 的 理论 等 。 

图 像 与 视频 的 数据 挖掘 包括 以 下 几 类 。 

。 ”图 像 与 视频 特征 提取 : 图 像 与 视频 数据 特征 有 颜色 、 纹 理 和 形状 等 。 这 些 特征 提取 用 
于 基于 内 容 的 相似 检索 。 

。 ”基于 内 容 的 相似 检索 : 根据 图 像 、 视 频 特 征 的 分 布 、 比 例 等 进行 基于 内 容 的 相似 检索 ， 
可 以 将 图 像 和 视频 数据 进行 聚 类 以 及 分 类 ， 也 能 完成 对 新 图 像 或 视频 的 识别 。 如 对 遥 
感 图 像 或 视频 的 识别 可 以 应 用 于 森林 火灾 的 发 现 与 报警 、 河 流水 灾 的 预报 等 。 

。 ”视频 镜头 的 编辑 与 组 织 : 镜头 代表 一 段 连续 动作 ( 视频 数据 流 ) 。 典 型 的 镜头 或 足球 
赛 的 射门 、 某 段 新 闻 节 目 等 ， 需 要 在 见长 的 视频 数据 流 中 进行 自动 截取 。 
经 过 编辑 的 镜头 ， 按 某 种 需要 重新 组 织 ， 将 形成 特定 需求 的 新 视频 节目 ， 如 足球 射门 集锦 、 
某 个 新 闻 事件 的 连续 报道 等 。 
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1.5.4 Web 数据 


自 数据 挖掘 技术 在 20 世纪 未 兴起 以 来 ， 它 的 挖掘 对 象 已 经 发 生 了 很 多 变化 。 近 几 年 ， 基 于 
互联 网 应 用 的 数据 挖掘 开始 发 展 以 来 , 其 挖掘 对 象 往往 是 半 结 构 化 的 、 异 构 的 数据 ( Web 数据 ) 。 
互联 网 挖 据 的 核心 是 数据 挖 据 和 KDD 技术 在 互联 网 相关 的 数据 源 上 的 延伸 ， 它 是 面向 互联 网 数 
据 进 行 分 析 和 知识 提取 的 。 互 联网 中 页 面 内 部 、 页 面 间 、 页 面 链 接 、 页 面 访 问 等 都 包含 大 量 对 用 
户 有 用 的 信息 ,而 这 些 信息 的 深层 次 含义 是 很 难 被 用 户 直接 使 用 的 ,必须 经 过 浓缩 和 提炼 。 从 某 
种 意义 上 讲 ， 这 正 是 互联 网 挖掘 所 解决 问题 的 出 发 点 和 目标 。 

Web 数据 挖掘 具有 以 下 两 个 特点 。 





























1. 异 构 数据 集成 和 挖掘 


Web 上 每 一 个 站 点 是 一 个 数据 源 ， 各 数据 源 都 是 异 构 的 ,形成 了 一 个 巨大 的 异 构 数据 库 环境 。 
将 这 些 站 点 的 异 构 数据 进行 集成 ， 给 用 户 提供 一 个 统一 的 视图 ， 才 能 在 Web 上 进行 数据 挖掘 。 


2. 半 结 构 化 数据 模型 抽取 


Web 上 的 数据 非常 复杂 , 没有 特定 的 模型 描述 。 虽然 每 个 站 点 上 的 数据 是 结构 化 的 , 但 各 自 
的 设计 对 整个 网 络 是 一 个 非 完全 结构 化 的 数据 , 称 为 半 结 构 化 数据 。 对 半 结 构 化 数据 模型 的 查询 
和 集成 ， 需 要 寻找 一 个 半 结 构 化 模型 抽取 技术 来 自动 抽取 各 站 点 的 数据 。 

互联 网 挖掘 可 以 分 为 互联 网 结构 挖掘 、 互 联网 元 数据 挖掘 、 互 联网 使 用 挖掘 、 互 联网 内 容 挖 
据 、 总 结 和 摘要 系统 5 种 主要 任务 。 

(1 ) 互联 网 结构 挖 据 : 互联 网 结构 挖掘 是 对 互联 网 页 面 之 间 的 链接 结构 进行 挖掘 。 

(2 ) 互联 网 元 数据 挖掘 : 元 数据 就 是 指 那些 能 够 帮助 识别 、 描 述 和 定位 互联 网 资源 的 数据 。 
因为 元 数据 能 够 在 很 大 程度 上 反映 Web 文档 的 特征 ， 所 以 元 数据 挖掘 可 以 提高 互联 网 知识 挖掘 
的 准确 性 。 

(3 ) 互联 网 使 用 挖掘 : 互联 网 使 用 挖掘 是 对 用 户 访问 互联 网 时 在 服务 器 留 下 的 访问 记录 进 
行 挖掘 ， 即 对 用 户 访问 互联 网 站 点 的 存 取 方 式 进行 挖掘 。 挖 掘 的 对 象 是 在 服务 器 上 的 包括 server 
log data 等 在 内 的 日 志文 件 记 录 。 

(4 ) 互联 网 内 容 挖 据 : 互联 网 内 容 挖 掘 是 指 对 站 点 的 互联 网 页 面 内 容 进行 挖掘 。 

(5 ) 总 结 和 摘要 系统 : 目前 ， 互 联网 上 的 信息 量 正 以 爆炸 式 的 方式 增长 ， 它 已 经 远 远 超过 
人 类 的 阅读 能 力 。 互联 网 上 信息 的 总 结 和 摘要 系统 正 是 应 这 种 实践 要 求 产 生 的 。 它 通过 各 种 信息 
抽取 方法 , 希望 把 互联 网 蕴藏 的 信息 抽取 出 来 ,将 信息 浓缩 或 升华 , 然后 , 或 者 形成 文字 , 或 者 
使 用 数值 的 方法 ， 例 如 信息 流 来 表示 信息 浓缩 或 升华 的 内 容 。 


1.6 ”数据 挖掘 建 模 方法 


一 个 成 功 的 数据 挖掘 并 不 是 对 数据 的 简单 运用 ， 而 是 要 在 大 量 数据 中 不 仅 发 现 潜在 的 模式 ， 
而 且 必 须 能 对 这 些 模式 做 出 反应 ,对 它们 进行 处 理 , 将 数据 转化 为 信息 ,将 信息 转化 为 行动 ， 最 
终 将 行动 转化 为 价值 。 所 以 为 了 成 功 运用 数据 挖掘 , 对 数据 挖掘 技术 层次 的 理解 至 关 重要 , 尤其 
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是 应 该 了 解 如 何 将 数据 变 成 有 用 信息 的 过 程 。 

1999 年 欧盟 机 构 联合 起 草 了 CRISP- DM， 目 前 在 各 种 FDD 过 程 模 型 中 得 到 广泛 的 应 用 。 
它 强调 DM 不 单 是 数据 的 组 织 或 者 呈现 , 也 不 仅 是 数据 的 统计 建 模 ， 而 是 一 个 从 理解 业务 、 寻 求 
解决 方案 到 接受 实践 检验 的 完整 过 程 , 图 1.2 即 为 一 个 DM 完整 过 程 的 描述 , 它 可 分 为 业务 理解 、 
数据 理解 、 数 据 准备 、 建 模 、 评 估 和 部 团 6 个 阶段 。 






1. 业务 理解 2. 数据 理解 
一 业务 梳理 一 数据 收集 
一 业务 描述 一 数据 描述 
6. 部 团 一 业务 特征 研究 一 数据 探索 
一 计划 部 团 业务 关联 分 析 数据 质量 检测 
一 计划 监控 与 维护 
一 制作 最 终 报告 
一 项 目 回顾 检讨 
3. 数据 准备 
一 数据 第 先 
一 数据 清理 
一 数据 构建 
一 和 化 数 全 
5. 评估 4. 建 模 一 准备 建 模 数 据 
一 评估 结果 一 选择 建 模 工具 。 一 选择 建 模 技 术 
一 回顾 检讨 探测 过 程 一 测试 设计 和 训练 模型 
一 决定 后 续 步骤 与 调整 一 建立 模型 
一 诊断 模型 


图 1.2 CRISP -DM 处 理 流程 
数据 挖掘 过 程 是 一 个 人 机 交互 、 多 次 反复 的 过 程 ，CRISP - DM 处 理 流程 的 6 个 阶段 的 顺序 
并 不 是 固定 的 ,通常 需要 在 不 同 阶段 之 间 来 回 以 逐步 完善 。 在 实际 应 用 中 , 应 该 针对 不 同 的 应 用 
环境 和 实际 情况 做 出 必要 的 调整 , 使 数据 挖掘 根植 于 业务 环节 中 。 一 个 数据 挖掘 项 目 通常 并 不 是 
一 次 性 执行 6 个 步骤 就 结束 了 , 往往 需要 反复 和 迭代、 不 断 完 善 。 从 一 个 数据 挖掘 循环 获得 的 知识 
通常 会 产生 新 的 问题 , 出 现 新 的 机 会 来 识别 和 满足 客户 的 需求 。 通 常 可 以 在 新 一 轮 的 数据 挖掘 过 
程 中 找到 解决 这 些 问 题 的 方法 ， 并 把 握 新 的 机 会 来 满足 客户 更 高 的 需求 。 





1.6.1 业务 理解 


业务 理解 是 数据 挖掘 过 程 中 的 第 一 个 阶段 ， 主 要 集中 在 理解 项 目的 目标 和 从 业务 的 角度 理解 
需求 ， 同 时 将 这 个 需求 转化 为 数据 挖掘 问题 的 定义 和 完成 目标 的 初步 计划 。 具 体 而 言 有 业务 梳理 、 
业务 描述 ,业务 特征 研究 和 业务 关联 分 析 等 过 程 。 通 过 业务 理解 可 以 明确 是 否 需要 进行 数据 的 挖掘 。 
业务 梳理 和 业务 描述 需要 进行 不 断 的 探索 、 交 流 , 从 而 正确 理解 问题 。 这 就 要 求 数据 挖 据 技 
术 人 员 不 仅 需 要 充分 了 解 技术 和 数据 , 还 必须 和 了 解 企 业 业务 问题 的 人 员 (行业 专家 ) 沟通 与 交 
流 ， 以 明确 他 们 的 业务 问题 。 此 外 , 在 分 析 的 最 后 阶段 ， 只 有 行业 专家 才 有 资格 判断 最 后 结果 的 
优 劣 。 

在 业务 特征 研究 阶段 ， 需 要 确定 诸如 哪 类 客户 有 可 能 对 产品 感 兴趣 、 客 户 具 哪 些 基本 特征 、 
每 位 客户 能 创造 多 少 价值 、 能 创造 较 高 价值 的 客户 应 具有 的 共同 特征 等 各 种 目标 , 并 且 对 业务 进 
行 关联 分 析 ， 寻 找 业 务 间 的 隐 含 的 关联 。 

在 数据 挖掘 实践 中 , 数据 挖掘 技术 与 业务 的 需求 结合 起 来 是 最 困难 也 是 最 重要 的 一 点 。 数 据 
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挖掘 专家 与 业务 专家 需要 相互 学 习 一 些 对 方 的 专业 知识 , 以 便 两 者 都 能 互 换 角 度 , 能 够 知道 现 有 
技术 在 这 个 业务 中 能 做 些 什么 , 才能 共同 确定 数据 挖掘 项 目的 目标 , 才能 使 数据 挖掘 技术 发 挥 出 
应 有 的 效益 和 效率 来 。 


1.6.2 ”数据 理解 


数据 理解 从 数据 收集 开始 。 在 收集 数据 前 , 需要 明确 所 需 的 信息 , 然后 根据 相应 的 标准 收集 
必需 的 数据 。 通 过 对 所 分 析 业 务 的 了 解 ， 掌握 数据 来 源 的 分 析 和 了 解 ， 及 对 先 验 知识 的 收集 、 学 
习 、 整 理 。 这 一 步 工作 处 理 得 好 ， 就 为 数据 挖掘 莫 定 了 一 个 良好 的 基础 。 

数据 收集 后 ,就 需要 了 解数 据 的 关系 和 质量 ,包括 数据 的 整体 模型 、 数 据 之 间 的 关系 、 数 据 
的 质量 等 ,以 发 现 数据 的 内 部 属性 , 或 是 探测 引起 兴趣 的 子 集 去 形成 隐 含 信息 的 假设 。 在 这 个 过 
程 中, 需要 应 用 一 些 数学 工具 对 数据 进行 描述 ,理解 数据 的 内 涵 与 数据 的 分 布 特征 ,检验 数据 的 
“总 和 ”或 者 “表面 的 ”特征 ， 并 检验 数据 的 质量 ,确定 数据 是 否 完整 、 正 确 ， 是 否 存 在 缺失 值 ， 
变量 的 含义 与 变量 值 是 否 一 致 等 质量 问题 。 在 此 基础 上 ,详细 分 析 数 据 的 变量 特征 ,识别 潜在 的 
特征 , 思考 和 评估 在 描述 数据 过 程 中 的 信息 和 发 现 , 提出 假设 并 确定 方案 , 曾 明 数据 挖掘 的 目标 。 


1.6.3 ”数据 准备 


数据 准备 包括 从 原始 数据 中 创建 目标 数据 集 。 它 有 以 下 6 个 任务 。 

(1 ) 数据 筛选 : 数据 筛选 是 确定 数据 挖掘 分 析 过 程 中 所 必需 的 数据 ， 即 选择 有 用 的 特征 和 
记录 。 在 选择 数据 时 ， 首 先 要 考虑 数据 应 符合 问题 的 需要 , 并且 采集 尽 可 能 多 的 数据 量 , 尤其 在 
使 用 抽样 调查 数据 时 ， 应 注意 数据 的 普遍 性 。 有 时 还 需要 收集 期 望 的 输出 等 。 

数据 挖掘 是 基于 对 海量 数据 的 分 析 的 , 但 在 实践 应 用 中 既 要 考虑 数据 挖掘 的 结果 , 又 要 考虑 
数据 挖掘 的 成 本 ， 很 多 时 候 ， 需 要 从 超大 的 数据 集中 选取 有 代表 性 的 数据 进行 分 析 。 

(2 ) 数据 清理 : 数据 清理 是 清理 数据 中 包含 的 噪声 和 与 数据 挖掘 主题 明显 无 关 的 数据 。 它 
通常 包括 填补 空缺 的 数据 值 、 清 理 噪 声 数 据 以 及 解决 数据 不 一 致 的 问题 。 

(3 ) 数据 构建 : 数据 构建 是 指 属性 构造 ， 多 维 数据 组 织 ( 聚集 ) 和 数据 泛 化 处 理 等 任务 。 

属性 构造 是 指 通过 组 合 、 汇 总、 提取 等 方式 在 已 有 属性 的 基础 上 构造 新 的 属性 , 以 帮助 提高 
数据 挖掘 的 质量 。 多 维 数据 组 织 是 指 对 数据 进行 汇总 和 聚集 ， 采 用 切片 、 放 置 等 操作 使 原始 数据 
按照 多 维 立体 形式 成 为 不 同 层次 、 不 同 粒度 和 不 同 维度 的 聚焦 。 而 数据 泛 化 则 是 指使 用 高 层次 的 
概念 替换 低层 次 的 概念 。 

(4 ) 数据 整合 : 数据 整合 是 将 来 自 多 个 数据 源 的 相关 数据 组 合 在 一 起 ， 即 把 不 同 来 源 、 格 
式 、 特 点 的 数据 在 逻辑 上 或 者 物理 上 有 机 地 集合 在 一 起 ， 使 之 更 加 有 利于 数据 挖掘 过 程 的 实现 。 

(5 ) 数据 规范 化 : 数据 规范 化 就 是 将 数据 的 属性 数据 按 比 例 缩放 ， 使 之 落 入 一 个 特定 的 小 
范围 内 ， 以 消除 数值 型 因 大 小 不 一 致 或 度量 单位 的 不 同 而 造成 的 数据 挖掘 结果 出 现 偏差 。 

(6 ) 准备 建 模 数 据 集 : 对 数据 进行 上 述 处 理 后 ， 并 不 能 直接 用 于 数据 建 模 ， 还 需要 考虑 到 
数据 的 稀 玻 程度 。 通 常 对 于 稀 玻 的 数据 ， 最 好 选用 15% ~ 30% 的 比例 来 建 模 。 

为 了 评估 模型 ， 一 般 将 建 模 数据 分 成 三 个 部 分 ,， 即 训练 集 、 测 试 集 和 评估 集 。 将 数据 的 训练 
集 最 初 用 于 建立 模型 的 ， 用 测试 集 和 评估 集 来 精 化 模型 和 评估 模型 。 

在 实践 中 ， 一 般 保留 1/3 的 数据 用 于 测试 ，2/3 的 数据 用 于 训练 ， 同 时 在 随机 取样 时 必须 确 
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保 在 训练 集 和 测试 集中 每 个 类 各 自 应 有 的 比例 ( 分 层 ) 。 更 通用 的 方法 是 用 不 同 的 随机 样本 重复 
进行 多 次 训练 和 测试 ， 每 次 迭代 过 程 中 ,随机 抽取 一 个 特定 比例 的 数据 进行 训练 ， 即 交叉 验证 。 
首先 确定 一 个 固定 的 比例 或 折 数 ( 如 3 折 ) ,将 数据 集 分 成 三 部 分 , 每 部 分 轮流 用 于 测试 而 剩余 
的 则 用 于 训练 。 重 复 此 过 程 3 次 ， 从 而 每 个 实例 恰好 有 一 次 是 用 于 测试 的 。 给 定 一 个 数据 样本 ， 
预测 某 种 机 器 学 习 技术 误差 率 的 标准 方法 就 是 使 用 分 层 10 折 。 数据 被 随机 分 割 成 10 个 部 分 , 每 
部 分 中 的 种 类 比例 与 整个 数据 集中 的 比例 基本 一 致 ， 每 部 分 依次 轮流 被 用 于 测试 ， 而 其 余 9/10 
则 参与 某 一 个 学 习 算法 的 训练 。 


1.6.4 建 模 


数据 挖掘 中 的 建 模 是 指 根据 问题 的 特定 对 象 而 建立 模型 ,并 利用 模型 解决 特定 的 现象 和 预测 
对 象 的 未 来 。 为 此 ， 建 模 时 应 注意 以 下 3 点 。 


1. 预测 模型 的 时 间 范 围 


在 建立 模型 的 过 程 中 , 首先 需要 训练 模型 ， 即 用 历史 数据 构建 模型 进行 预测 ,然后 将 模型 应 
用 于 新 的 数据 中 从 而 生成 结果 ( 得 分 ) 。 在 这 个 过 程 中 , 需要 关注 训练 模型 的 时 间 间 隔 和 模型 产 
生得 分 这 两 个 时 间 范围 。 训 练 过 程 中 产生 的 结果 是 已 知 的 ， 得 分 过 程 所 产生 的 结果 是 未 知 的 。 模 
型 建立 后 ， 它 的 执行 效果 只 能 通过 已 知 的 历史 数据 来 评估 , 在 有 些 情 况 下 ,用 历史 数据 得 到 的 是 
好 结果 , 但 用 在 预测 结果 却 不 理想 。 因 此 为 了 更 加 有 效 地 对 未 来 问题 进行 预测 ,不仅 需要 了 解构 
建 模型 的 过 程 ， 还 要 了 解 模 型 的 工作 情况 。 


2. 模型 的 使 用 有 效 期 


在 建立 模型 时 , 还 要 考虑 模型 的 使 用 有 效 期 间 题 , 即 模型 使 用 有 效 期 和 模型 预测 有 效 期 。 前 
者 是 指 在 业务 环境 、 技 术 手 段 、 客 户 基础 等 相对 稳定 的 条 件 下 ， 可 以 使 用 模型 的 时 间 期 限 。 一旦 
条 件 改变 , 就 要 用 新 的 数据 构造 新 的 模型 。 后 者 是 指 预 测 结果 应 该 在 特定 的 时 间 内 才 有 效 。 例 如 
用 电 高 峰 与 低谷 的 模型 很 明显 是 不 一 致 的 。 


3. 建立 模型 的 假设 


模型 的 成 功 应 用 依赖 于 3 个 基本 的 假设 : 一 是 历史 是 未 来 的 写照 ; 二 是 数据 是 可 以 获得 的 ; 
三 是 数据 中 包含 预期 目标 。 

以 上 3 个 基本 假设 都 是 在 一 定 的 条 件 下 才能 存在 。 对 于 第 一 个 假设 , 要 求 待 解决 的 问题 和 客 
户 的 环境 要 前 后 一 致 ;对 于 第 二 个 假设 , 要 求 数据 可 以 通过 一 定 的 技术 手段 获得 , 数据 中 不 能 有 
太 多 的 缺失 值 或 格式 有 错误 等 问题 ; 对 于 第 三 个 假设 ， 则 要 求 预测 目标 不 能 发 生 改变 。 

下 面 讲解 如 何 建立 有 效 的 模型 。 

建立 模型 最 重要 的 目标 是 保持 模型 的 稳定 , 即 要 求 在 使 用 模型 进行 预测 时 , 必须 保证 未 来 预 
测 值 也 是 正确 的 。 为 此 ， 建 立 一 个 有 效 的 模型 需 考虑 以 下 几 个 问题 。 

(1) 数据 收集 要 充分 ， 这 样 才能 保证 训练 集 、 测 试 集 和 评估 集 3 个 子 集 都 有 一 定 的 数量 。 

(2 ) 对 于 类 别 不 平衡 的 数据 ， 通 过 抽样 来 控制 模型 集 的 密度 ， 即 不 同 分 布 的 类 别 比例 。 

(3 ) 注意 数据 的 输入 和 输出 时 间 范 围 。 
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(4 ) 在 模型 集中 使 用 多 重 窗口 有 助 于 确保 模型 稳定 ， 并 且 在 时 间 上 易于 转换 。 

(5 ) 大 多 数 建 模 过 程 需要 建立 多 个 模型 ， 并 对 多 个 模型 的 效果 进行 比较 ， 以 选用 效果 最 好 
的 模型 进行 预测 ， 或 者 对 多 个 模型 进行 组 合 ， 以 得 到 性 能 更 优 的 集成 分 类 模型 。 

(6 ) 对 不 同 的 模型 集 、 模 型 参数 等 进行 试验 ， 有 助 于 建立 更 好 更 稳定 的 模型 。 

数据 挖掘 是 一 项 具有 挑战 性 、 探 索性 和 需求 不 断 创新 的 学 科 与 技术 。 在 建 模 过 程 中 , 不 能 被 
限制 和 约束 ， 既 要 重视 经 典 的 有 关 数 据 挖掘 的 原理 ,但 可 能 还 可 借鉴 更 多 的 学 科 知识 , 开创 数据 
挖掘 新 的 原理 和 新 的 理论 , 同时 ,要 注意 总 结 经 验 , 通过 不 断 增长 的 各 种 数据 挖掘 的 业务 需求 来 
寻找 和 探索 新 理论 与 新 知识 。 新 思想 、 新 技术 往往 来 源 于 其 他 领域 。 


1.6.5 评估 


评估 是 将 模型 的 输出 结果 与 现实 生活 中 发 生 的 结果 进行 比较 , 从 而 进一步 评估 模型 。 为 了 保 
证 预测 结果 的 有 效 性 ， 对 模型 进行 评估 时 应 遵循 以 下 原则 。 

(1) 合理 性 : 模型 应 具有 与 事物 的 发 展 规律 相 一 致 的 特性 ， 且 符合 逻辑 。 

(2 ) 预测 能 力 : 模型 的 预测 能 力 表 现在 两 个 方面 : 一 是 模型 能 否 说 明 所 要 预测 期 间 事物 的 
发 展 情况 ; 二 是 预测 的 误差 ， 即 只 有 预测 结果 有 一 个 合适 的 置信 区 间 ， 才 能 保证 预测 有 意义 。 

(3 ) 稳定 性 : 模型 的 稳定 性 是 指 模型 能 在 较 长 的 时 间 内 准确 地 反映 预测 的 发 展 变化 情况 ， 
以 及 其 参数 和 预测 能 力 受 统计 数据 变化 影响 的 程度 。 如 一 个 模型 无 论 是 用 2000 年 的 数据 还 是 用 
2005 年 的 数据 建立 起 来 的 ， 其 参数 和 预测 能 力 变化 不 大 ， 说 明 此 模型 较为 稳定 。 

(4 ) 简单 性 ， 当 两 个 模型 的 预测 能 力 相差 不 大 时 ， 形 式 简单 、 容 易 运 用 的 模型 是 优先 选择 
的 对 象 。 

(5 ) 成 本 要 低 。 即 当 模型 发 生 错误 的 预测 时 ， 所 造成 的 损失 要 小 。 
评估 结束 后 ,需要 对 整个 数据 挖掘 过 程 进行 回顾 , 查找 及 分 析 预 测 误差 的 大 小 及 原因 , 以 决 
定 后 续 的 数据 挖掘 的 步 又 并 做 出 相应 的 调整 。 
评估 是 数据 挖掘 能 否 取得 成 功 的 关键 一 环 。 在 训练 集 上 表现 好 的 算法 并 不 意味 着 在 独立 的 测 
试 集中 或 实际 数据 中 也 会 有 好 的 结果 。 

为 了 评估 模型 效果 , 数据 挖掘 过 程 中 所 使 用 的 3 个 数据 集 必须 保持 独立 性 , 测试 数据 不 能 以 
任何 方式 参与 模型 的 建立 , 而 对 模型 进行 参数 的 优化 ,也 必须 使 用 不 同 于 模型 建立 所 使 用 的 数据 。 
验证 数据 必须 有 别 于 训练 集 以 获得 较 好 的 优化 或 选择 阶段 的 性 能 , 同时 测试 数据 集 也 必须 有 别 于 
其 他 两 个 数据 集 以 获得 对 真实 误差 的 可 靠 估 计 。 但 如 果 知 道 了 模型 的 误差 率 , 便 可 以 将 测试 数据 
合并 到 训练 数据 中 ; 同样 ， 一 旦 验证 数据 已 被 使 用 ， 那 么 也 可 以 将 验证 数据 合并 到 训练 数据 中 ， 
使 用 尽 可 能 多 的 数据 重新 训练 模型 。 

为 得 到 可 靠 的 结果 , 一 般 使 用 10 次 10 折 交 叉 验证 。 当 然 也 可 以 用 其 他 验证 方法 , 如 留 一 交 
叉 验证 法 。 此 法 实际 上 就 是 n 折 交 叉 验证 法 ,其 中 是 数据 集中 所 含 实例 的 个 数 。 每 个 实例 依次 被 
保留 而 用 于 测试 ， 其余 的 数据 则 用 于 训练 。 由 于 尽 可 能 用 了 最 多 的 数据 参与 训练 ， 从 而 可 能 会 得 
到 更 准确 的 模型 。 当 然 它 的 计算 量 也 相应 增 大 了 。 

还 有 一 种 评估 方法 是 基于 统计 学 的 放 回 抽样 过 程 。 也 即 一 个 有 个 数据 集 进 行 了 次 放 回 抽 
样 ， 从 而 形成 了 另 一 个 拥有 个 数据 的 数据 集 。 这 个 新 的 数据 集 必 有 重复 的 数据 ,原始 数据 集中 
也 必 有 部 分 数据 未 被 抽样 ， 这 些 数 据 就 可 以 用 作 测 试 数据 。 
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1.6.6 部 署 


模型 的 作用 是 从 数据 中 找到 知识 , 获得 的 知识 需要 以 便于 用 户 使 用 的 方式 重组 和 展现 。 所 以 
模型 的 建立 并 不 是 项 目的 结束 ， 在 模型 建立 并 验证 后 ,一 般 由 用 户 把 模型 预测 的 结果 作为 参考 ， 
提出 解决 业务 问题 的 方案 ， 从 而 做 出 部 署 。 

根据 需求 , 这 个 阶段 可 以 产生 简单 的 报告 , 或 者 是 实现 一 个 比较 复杂 的 、 可 重复 的 数据 挖掘 
过 程 ， 其 任务 包括 : 计划 部 署 、 计 划 监 控 与 维护 、 制 作 最 终 报 告 项 目 回顾 和 总 结 。 


1.7 ”数据 挖掘 的 应 用 


数据 挖掘 技术 来 源 于 商业 的 直接 需求 , 并 在 各 种 领域 都 有 广泛 的 使 用 价值 。 数据 挖掘 已 在 银 
行 、 金 融 、 零 售 、 医 药 、 电 子 工 程 、 航 空 、 旅 馆 等 行业 具有 大 量 数据 和 深度 分 析 需 求 的 、 易 产生 
大 量 数字 信息 的 领域 得 到 广泛 的 使 用 , 并 带 来 了 巨大 的 社会 效益 和 经 济 效益 。 数 据 挖掘 技术 既 可 
以 检验 行业 内 长 期 形成 的 知识 模式 , 也 能 够 发 现 隐藏 的 新 规律 。 随 着 更 多 行业 数据 挖掘 的 应 用 成 
功 ， 数 据 挖掘 的 应 用 前 景 十 分 广阔 。 


1.7.1 ”在 金融 领域 中 的 应 用 


在 金融 方面 ,银行 和 金融 机 构 往往 持 有 大 量 的 关于 客户 的 、 各 种 服务 的 以 及 交易 事务 的 数据 ， 
并 且 这 些 数据 通常 比较 完整 、 可 靠 和 高 质量 ， 这 极 大 地 方便 了 系统 的 数据 分 析 和 数据 挖掘 。 在 银 
行业 中 ,数据 挖掘 被 用 来 建 模 、 预 测 、 识 别 伪造 信用 卡 、 估 计 风险 、 进 行 趋势 分 析 、 效 益 分 析 、 
顾客 分 析 等 。 在 此 领域 运用 数据 挖掘 ， 可 以 进行 贷款 偿付 预测 和 客户 信用 政策 分 析 ， 以 调整 贷款 
发 放 政策 ， 降 低 经 营 风险 。 

信用 卡 公司 可 以 应 用 数据 挖掘 中 的 关联 规则 来 识别 欺诈 。 股 票 交易 所 和 银行 也 有 这 方面 的 需 
求 。 对 目标 客户 群 进行 分 类 及 聚 类 ， 以 识别 不 同 的 客户 群 ， 为 不 同 的 客户 提供 更 好 的 服务 ， 以 推 
动 市 场 。 

数据 分 析 工 具 可 以 找 出 金融 交易 的 异常 模式 ,以 侦破 洗 黑钱 和 其 他 金融 犯罪 活动 。 洗 钱 是 一 
种 非 理性 的 经 济 活动 , 因而 必然 表现 出 不 同 于 正常 理性 的 经 济 活动 特征 。 通 过 研究 离 群 点 ( 交易 
金额 异常 增 大 、 近 似 等 额 、 交 易 频率 的 异常 变化 ) 检测 以 及 关联 分 析 ( 如 账户 日 常 交 易 的 信息 如 
账号 、 交 易 时 间 、 交 易 名 称 、 公 司 名 称 、 企 业 行业 代码 、 企 业 性 质 、 企 业 的 信用 等 级 、 注 册 资 金 
等 ) 就 可 以 识别 可 疑 洗钱 的 行为 模式 ， 从 而 准确 、 及 时 地 对 各 种 信用 风险 进行 监视 、 评 价 、 预 警 
和 管理 , 评价 这 些 风 险 的 严重 性 、 发 生 的 可 能 性 以 及 控制 这 些 风险 的 成 本 ,进而 可 以 采取 有 效 的 
规避 和 监督 措施 , 从 而 可 以 在 信用 风险 发 生 之 前 对 其 进行 预 答 和 控制 , 趋 利 避 害 , 做 好 防范 工作 。 

数据 挖 据 技 术 在 我 国 金融 业 的 应 用 正 处 于 起 步 阶 段 。 我 国 金融 业 对 信息 化 工作 的 重视 在 近 些 
年 达到 了 前 所 未 有 的 高 度 , 特别 是 数据 大 集中 工程 的 实施 , 使 得 我 国 金融 业 的 硬件 建设 方面 与 国 
际 发 展 的 步调 基本 一 致 ,但 同时 也 提出 一 个 新 课题 , 即 如 何 处 理 每 日 在 互联 网 上 产生 的 海量 数据 ， 
进行 科学 的 分 析 处 理 ， 并 及 时 提供 决策 支持 。 数 据 挖 据 可 以 在 这 方面 起 到 非常 关键 的 作用 。 

数据 挖掘 还 可 以 在 股票 市 场 发 挥 重 要 的 作用 。 股 票 交易 的 时 序数 据 是 一 种 常见 的 数据 结构 ， 
对 股市 进行 动态 数据 挖掘 , 可 以 随时 掌握 由 大 量 数据 所 反映 的 金融 市 场 暗 流 。 通 过 过 滤 股 市 的 各 
种 交易 数据 ， 找 出 非法 的 炒作 现象 和 操作 , 例如 通过 对 异常 交易 数据 的 分 析 , 判断 是 否 存在 非法 
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交易 。 并 且 还 可 以 将 监管 搜索 范围 扩大 到 一 般 的 网 页 上 ， 以 适应 网 上 股民 数量 日 益 增多 的 特点 ， 
并 借助 一 定 的 文字 分 析 技术 提高 准确 率 ， 这 对 稳定 我 国 的 金融 市 场 有 着 积极 作用 。 

数据 挖掘 在 股市 的 另 一 个 应 用 是 研究 股市 炒作 的 快速 监测 算法 和 技术 。 我 国 的 股市 都 是 电子 
交易 , 这 些 交 易 每 天 产生 的 海量 数据 已 超出 人 工 处 理 的 能 力 , 但 这 正 使 得 应 用 计算 机 算法 进行 智 
能 自动 监测 成 为 可 能 。 从 管理 部 门 角度 出 发 , 可 以 通过 过 滤 股 市 的 各 种 交易 数据 发 现 异常 现象 和 
相应 的 操作 ， 识 别 出 合 法 和 非法 的 炒作 ， 找 出 中 国 式 的 股市 各 种 炒作 的 模式 。 

数据 挖掘 在 打造 金融 行业 知识 创新 型 企业 中 , 正在 发 挥 着 重要 作用 。 信息 的 分 析 与 管理 , 在 
整个 信息 的 获取 和 信息 的 使 用 之 间 , 搭建 了 一 个 有 效 的 渠道 , 通过 对 于 海量 源 的 数据 的 抽取 、 转 
化 和 加 载 ,向 金融 企业 用 户 提供 统计 报表 、 多 维 分 析 、 决 策 支持 等 相关 的 信息 和 知识 。 目 前 大 规 
模 海量 的 数据 库 挖掘 已 成 为 数据 挖掘 研究 的 主流 之 一 。 


1.7.2 ”在 零售 业 中 的 应 用 


在 零售 业 方面 , 计算 机 使 用 率 已 经 越 来 越 高 , 大 型 的 超市 大 多 配备 了 完善 的 计算 机 及 数据 库 
系统 。 随 着 条 形 码 技术 的 广泛 使 用 , 目前 我 国 大 部 分 商业 零售 企业 已 经 基本 配备 了 销售 点 ( point 
of sales, POS ) 系统 ,部 分 商场 甚至 配备 了 决策 支持 系统 和 库存 管理 系统 。 随 着 交易 的 持续 进行 ， 
记录 了 大 量 的 客户 交易 以 及 销售 、 货 物 进出 与 服务 记录 等 大 量 数据 。 同 时 超市 行业 的 迅速 扩张 ， 
经 营 规模 的 不 断 扩 大 及 竞争 的 日 趋 激烈 ， 使 它们 对 采购 管理 技术 、 商 品 配送 技术 、 信 息 技 术 和 整 
体 营 销 技术 提出 了 新 的 要 求 。 这 些 需求 使 得 数据 挖掘 技术 在 零售 行业 大 有 用 武之 地 。 利 用 数据 挖 
据 技 术 , 零售 企业 可 以 更 好 地 掌握 客户 信息 ， 及 时 地 识别 顾客 购买 模式 和 趋势 ， 发 现 潜在 的 购买 
需要 ， 从 而 通过 改进 服务 质量 , 大 大 减少 优惠 促销 方式 的 盲目 性 ， 取得 更 高 的 顾客 保持 力 和 满意 
程度 ， 减 少 销售 成 本 ， 提 高 效率 ， 增 强 企业 的 核心 竞争 力 。 

零售 业 和 客户 之 间 的 关系 是 一 种 持续 不 断 的 发 展 关系 ,一 般 来 说 零售 业 通 常 通过 以 下 三 种 方 
法 来 维持 和 加 强 这 种 关系 : 尽量 延长 保持 这 种 关系 的 时 间 、 尽 量 多 次 地 与 客户 交易 ,尽量 保证 每 
次 交易 的 最 大 利润 。 在 很 多 情况 下 商家 可 以 比较 容易 地 得 到 关于 老 客户 的 丰富 的 信息 。 这 些 信息 
特别 是 以 前 购买 行为 的 信息 中 , 可 能 包含 着 这 个 客户 决定 他 下 一 个 购买 行为 的 关键 信息 ,甚至 是 
决定 性 因素 。 通 过 收集 、 加 工 和 处 理 能 够 处 理 客 户 消费 行为 的 大 量 信息 , 来 确定 特定 消费 群体 或 
个 体 的 兴趣 消费 习惯 消费 倾向 和 消费 需求 ,进而 推断 出 相应 消费 群体 或 个 体 下 一 步 的 消费 行为 ， 
然后 以 此 为 基础 对 所 识别 出 来 的 消费 群体 进行 特定 内 容 的 定向 营销 。 这 与 传统 的 不 区 分 消费 对 象 
特征 的 大 规模 营销 手段 相 比 ， 大 大 节省 了 营销 成 本 , 提高 了 营销 效果 ， 从 而 为 企业 带 来 更 多 的 利 
润 。 在 市 场 经 济 比较 发 达 的 国家 和 地 区 , 许多 公司 都 开始 在 原 有 信息 系统 的 基础 上 通过 数据 挖掘 
对 业务 信息 进行 深度 加 工 ， 以 构筑 自己 的 竞争 优势 ， 扩 大 自己 的 市 场 份额 。 

各 个 零售 企业 还 可 通过 从 销售 记录 中 挖掘 相关 信息 , 发 现 购买 基 一 种 商品 的 顾客 可 能 购买 其 
他 商品 ,这 类 信息 可 有 利于 形成 一 定 的 购买 推荐 , 或 者 保持 最 佳 的 商品 分 组 布局 ,以 帮助 客户 选 
择 商 品 ， 刺 激 顾客 的 购买 欲望 ， 从 而 达到 增加 销售 额 、 节 省 顾客 购买 时 间 的 目的 。 典 型 的 成 功 应 
案例 是 全 球 最 大 的 连锁 零售 企业 沃尔玛 公司 通过 “购物 篮 分 析 ” 得 出 的 “ 跟 尿 布 一 起 购买 最 多 
的 商品 竟然 是 啤酒 ”的 结论 ， 从 而 将 原来 相隔 很 远 的 妇 婴 用 品 区 与 酒 类 饲料 区 的 空间 距离 拉 近 ， 
并 适当 调整 价格 与 一 定 的 促销 手段 ， 使 得 尿布 与 啤酒 的 销量 双双 大 增 。 

各 个 零售 企业 往往 通过 办 理会 员 卡 的 方式 来 进行 客户 关系 管理 , 其 目的 是 可 以 更 低 成 本 、 更 
高 效率 满足 客户 的 需求 ， 从 而 可 以 最 大 限度 地 提高 客户 满意 度 以 及 忠诚 度 ,挽回 失去 的 客户 , 保 
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留 现 有 的 客户 ,不 断 发 展 新 的 客户 ， 发 气 并 牢 牢 地 把 握 住 能 给 企业 带 来 最 大 价值 的 客户 群 。 

数据 挖 据 在 寻找 潜在 客户 方面 最 重要 的 工作 是 : 识别 好 的 潜在 客户 ( 定义 具有 什么 特征 的 客 
户 是 好 的 潜在 客户 ， 找 出 能 够 瞄准 具备 这 些 特征 的 人 群 的 方法 ) 、 针 对 不 同类 型 的 潜在 客户 选择 
合适 的 沟通 渠道 ( 公共 关系 、 广 告 、 定 向 市 场 营 销 ) 、 针 对 不 同类 型 的 客户 提供 恰当 的 信息 ( 同 
一 产品 ， 不 同 的 人 可 能 对 不 同 的 功能 感 兴趣 ) 。 

利用 数据 挖掘 技术 可 以 对 客户 群体 进行 划分 , 发现 客 户 的 不 同 价值 和 即将 流失 的 客户 以 及 客 
户 流失 的 原因 , 因而 就 可 以 留 住 好 的 客户 , 淘汰 差 的 客户 。 通过 对 顾客 会 员 卡 信息 进行 数据 挖掘， 
可 以 记录 一 个 顾客 的 购买 序列 ， 从 而 利用 序列 模式 挖掘 ， 可 以 分 析 顾客 的 消费 或 忠诚 度 的 变化 ， 
据 此 对 商品 价格 和 花样 加 以 调整 和 更 新 ， 以 便 留 住 老 顾 客 , 吸引 新 客户 。 数 据 挖掘 技术 还 可 以 利 
用 上 述 交 易 数 据 来 识别 顾客 购买 行为 ， 发 现 顾客 购买 模式 和 趋势 , 在 此 基础 上 改进 服务 质量 , 提 
高 货品 销量 比率 ,设计 出 更 好 的 货品 运输 与 分 销 策略 ， 从 而 减少 商业 成 本 ， 取 得 更 好 的 顾客 保持 
力 和 满意 程度 。 


1.7.3 ”在 电信 业 中 的 应 用 


数据 挖 扬 在 电信 业 的 应 用 包括 : 四 对 电信 数据 的 多 维 分 析 ; @ 检 测 非典 型 的 使 用 模式 ， 以 寻 
找 潜在 的 盗用 者 ; @ 分 析 用 户 一 系列 的 电信 服务 使 用 模式 ， 来 改进 服务 ; @@ 需 求 分 析 等 。 

目前 , 电信 业 有 四 大 问题 或 须 解 决 : 第 一 个 是 市 场 细 分 , 即 客户 的 分 类 ; 第 二 个 是 精确 营销 ， 
即 当 某 一 个 用 户 用 了 这 方面 的 业务 , 他 是 否 还 会 用 其 他 的 业务 ; 第 三 个 是 新 业务 响应 ， 当 你 推出 
一 个 套餐 、 新 业务 时 ， 哪 一 类 的 客户 会 响应 ; 第 四 个 是 客户 流失 ， 即 哪 一 类 的 客户 会 流失 ,流失 
原因 是 什么 ， 怎 样 预 测 他 们 的 动向 。 

客户 细 分 的 目标 可 以 概括 为 : 通过 对 客户 的 人 口 统计 特征 、 各 业务 消费 特征 等 信息 的 有 效 挖 
据 和 分 析 ， 制 定 适宜 的 营销 策略 、 广 告 策略 、 促 销 策略 、 渠 道 策 略 等 来 实现 公司 的 服务 客户 , 增 
加 企业 的 语音 业务 和 各 增值 业务 的 使 用 量 和 收入 的 目的 。 最 出 名 的 客户 细 分 是 中 国 移动 的 动感 地 
带 用 户 的 确定 。 通 过 数据 挖掘 分 析出 年 龄 在 25 岁 以 下 ， 在 校 学 生 ， 有 一 定 彩铃 和 上 网 的 需求 ， 
容易 接受 新 鲜 事物 的 年 者 一 代 消费 群体 将 成 为 未 来 移动 通信 最 大 的 增值 群体 。 因此, 将 业务 为 导 
向 的 市 场 策略 率先 转向 了 以 细 分 客户 群体 为 导向 的 品牌 战略 ， 锁 定 15 ~25 岁 年 龄 段 的 学 生 、 年 
轻 白领 ,打造 新 的 增值 市 场 , 事实 证 明 , 锁定 这 一 消费 群 来 主打 自己 的 新 品牌 ,使 中 国 移动 动感 
地 带 品 牌 获 得 了 巨大 成 功 。 

精确 营销 是 一 个 基于 数据 分 析 的 量化 过 程 , 对 用 户 使 用 行为 和 偏好 的 精确 衡量 和 分 析 , 从 而 
实现 在 合适 的 时 间 、 合 适 的 地 点 精确 推荐 给 合适 的 人 。 

以 电信 运营 商 的 彩铃 为 例 。 通 过 关联 规则 挖掘, 可 以 得 出 结论 : 下 载 过 周杰伦 歌曲 的 用 户 中 ， 
同时 下 载 过 王力宏 的 比例 最 高 ,林俊杰 次 之 。 因 此 ,可 以 针对 下 载 过 周杰伦 歌曲 的 用 户 推荐 王 力 
宏 或 者 林俊杰 的 歌曲 交叉 销售 。 

现在 电信 业已 经 迅速 从 单纯 的 提供 市 话 和 长 话 服务 演变 为 综合 电信 服务 ， 如 语言 、 传 真 、 移 
动 电话 、 图 形 、 电 子 邮 件 、 互 联网 接 入 服务 。 电 信 市 场 的 竞争 也 变 得 越 来 越 激烈 和 全 方位 化 。 目 
前 不 管 是 住宅 电话 还 是 移动 电话 , 每 天 的 使 用 量 是 很 大 的 , 对 于 电话 公司 来 说 ,如何 充 分 使 用 这 
些 数 据 , 为 自己 赢得 更 多 的 利润 就 成 了 主要 问题 。 例 如 移动 电话 中 对 本 地 和 外 地 每 分 钟 收 多少 钱 
对 电话 公司 是 合算 , 而 且 还 能 保持 住 自己 的 顾客 源 不 被 其 他 电话 公司 吸引 走 ; 怎样 划分 高 峰 时 间 
和 非 高 峰 时 间 并 给 予 不 同 价格 最 合理 等 ， 这 些 问 题 都 可 以 通过 数据 挖掘 来 解决 。 
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号 簿 管家 是 中 国 移动 推出 的 一 个 专业 服务 于 移动 电话 用 户 的 通讯 录 业 务 , 通过 Web、WAP、 
SyncML 等 多 种 方式 ,为 移动 电话 用 户 提供 最 为 便捷 、 安 全 有 效 的 个 人 地 址 服务 。 利 用 数据 挖掘 
技术 对 现 有 的 用 户 进行 分 类 分 析 , 可 以 得 到 各 类 用 户 对 号 簿 管家 新 服务 的 购买 意愿 ， 从 而 灵活 地 
对 各 客户 分 组 进行 宏观 观察 和 微观 细 分 , 为 现 有 及 潜在 的 用 户 提供 更 加 周到 的 服务 , 以 稳定 或 获 
得 更 多 的 客户 。 


1.7.4 在 管理 中 的 应 用 


现代 企业 的 竞争 归根 结 底 是 人 才 的 竞争 。 企 业 人 力 资源 管理 部 门面 临 庞大 繁杂 的 员工 数据 ， 
要 想 有 效 地 提供 人 力 资源 管理 的 效益 , 从 人 才 配 备 的 角度 确保 企 事业 战略 目标 的 实现 , 传统 的 管 
理 办 法 和 思想 越 来 越 不 能 满足 这 个 要 求 。 有 鉴于 此 ， 需 要 采用 新 的 数据 处 理 技术 。 数 据 挖掘 技术 
可 以 解决 以 下 的 问题 : 求职 应 聘 者 的 哪些 关键 因素 最 有 助 于 企业 的 成 功 ? 员工 某 些 素质 的 提升 是 
否 与 他 们 业绩 的 提升 有 明显 的 关联 ? 是 否 福利 的 不 同 选项 明显 影响 员工 队伍 的 稳定 ? 是 否 某 些 
特定 的 受 教育 的 程度 明显 地 最 切合 企业 的 发 展 ? 本 企业 中 最 有 代表 性 的 最 合理 的 职业 发 展 道路 
是 怎样 的 路 径 ? 员工 的 提升 过 程 与 服务 年 限 是 否 有 明确 的 关系 ? 哪些 个 人 品质 可 以 确保 一 个 员 
工 成 为 合格 的 在 家 上 班 者 ? 缺勤 与 工作 业绩 是 否 有 必然 联系 ? 企业 是 否 有 必要 提供 员工 的 日 托 
服务 ? 提前 退休 计划 是 否 能 为 企业 带 来 好 的 效益 ? 

上 述 的 每 个 问题 ， 都 可 以 作为 采用 数据 挖掘 技术 来 得 到 有 益 的 回答 , 从 而 实现 优化 招聘 、 绩 
效 考核 与 评估 等 过 程 的 优化 ， 以 吸引 并 保留 经 验 丰富 的 员工 队伍 。 

数据 挖掘 技术 在 物资 资源 管理 中 也 能 发 挥 很 大 的 作用 。 通 过 对 供应 链 中 从 供应 商 到 最 终 消 费 
者 的 物流 、 信 息 流 、 资 金 流 等 各 种 数据 的 挖掘 ， 可 以 有 计划 、 有 协调 和 有 控制 地 管理 供应 链 , 使 
得 供应 链 上 的 各 企业 成 为 一 个 协调 发 展 的 有 机 体 ， 从 而 建立 一 个 有 竞争 力 的 物资 供应 链 。 在 这 其 
中 库存 问题 是 首要 解决 的 一 个 问题 。 需 要 根据 客户 的 需求 历史 或 者 生产 计划 等 求 出 需求 规律 , 解 
决 需求 预测 中 的 数据 特征 难以 量化 , 需求 订货 周期 难以 确定 、 供 应 难以 确定 等 技术 问题 ,从 而 较 
为 精确 地 预测 客户 下 一 时 期 的 物资 需求 品种 和 需求 量 ， 降 低 供应 链 的 成 本 。 


1.7.5 “在 化 学 研究 领域 中 的 应 用 


经 过 两 个 多 世纪 的 积累 ， 特 别 是 20 世纪 后 合成 化 学 的 大 发 展 ， 已 经 收集 了 大 量 功 能 分 子 信 
息 , 包括 其 合成 、 结 构 、 性 质 等 , 现在 还 在 以 越 来 越 快 的 速度 合成 出 新 化 合 物 ， 堆 起 一 座 各 种 各 
样 的 物质 信息 大 山 。 同 时 随 着 化 学 分 析 技术 的 进步 ,化 学 实验 数据 量 也 迅猛 增长 。 此 外 ,， 随 着 计 
算 化 学 的 发 展 ， 计 算 获得 的 数据 量 也 相当 可 观 。“ 海 量 ”的 化 学 数据 ， 只 有 通过 计算 机 技术 以 及 
相应 的 数据 挖掘 技术 才能 为 科学 界 共 享 。 

化 学 界 有 CAS 、Beistein 和 Gmelin 三 大 数据 库 系 统 。CAS 系统 包括 化 学 文献 、 分 子 结构 、 化 
学 反应 等 各 种 数据 ; Beistein 主要 是 处 理 有 关 有 机 化 学 的 结构 与 数据 ; Gmelin 则 主要 处 理 无 机 物 、 
金属 有 机 物 结构 与 性 质 。 其 他 类 型 的 数据 库 也 不 断 涌现 , 例 为 研究 小 分 子 在 生物 体系 中 的 作用 建立 
的 ChemBank 数据 库 。 该 数据 库 有 2000 多 种 小 分 子 的 生物 活性 数据 ; 美国 国家 癌症 研究 院 (NCI ) 
将 其 测试 过 的 125000 种 非 专 用 化 合 物 制 成 文本 文件 ， 每 个 化 合 物 都 有 CAS 登录 号 。MDL 将 该 数 
据 库 进行 了 转换 ， 以 便 与 ISIS 集成 ， 并 能 生成 三 维 模型 。Speclnfo 数据 库 中 包含 了 15 万 多 个 化 合 
物 的 66 万 多 条 光谱 数据 ( 核磁 共振 谱 、 近 红外 和 质谱 等 数据 ) ， 还 含有 其 他 实验 信息 和 参考 方面 
等 相关 信息 ， 实 现 了 与 CAS、Beistein、Gmelin 和 NUMRIGUIDE 等 数据 库 的 对 接 。 
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化 学 数据 库 的 建立 ,为 化 学 数据 的 高 效 存储 、 检 索 、 集 成 、 应 用 提供 了 方便 。 化 学 知识 往往 
隐 含 在 大 量 数据 中 ， 挖 掘 出 这 些 知 识 需要 一 些 思想 和 方法 。 化 学 信息 挖掘 是 理论 与 计算 机 化 学 、 
环境 科学 、 药 物化 学 、 生 命 科 学 等 学 科 中 非常 重要 同时 又 远 未 解决 的 问题 。 

化 学 数据 挖掘 技术 从 其 内 容 看 , 是 一 个 由 多 学 科 交叉 形成 的 研究 和 应 用 领域 。 技术 关键 在 于 
利用 计算 机 技术 、 数 学 模型 和 化 学 背景 知识 等 从 海量 化 学 数据 中 自动 发 现 、 揭 示 和 表征 那些 原来 
不 明显 、 具 有 潜在 应 用 价值 的 新 知识 和 新 信息 。 目 前 , 针对 化 学 化 工 数据 的 挖掘 技术 均 未 形成 与 
成 熟 , 亟待 研究 开发 。 例 如 合成 路 线 设 计 是 化 学 家 长 期 以 来 的 理想 , 尽管 已 经 有 大 量 数 据 可 供 参 
考 , 但 由 于 化 学 反应 体系 的 复杂 性 ， 难 以 用 纯 理论 方法 来 解决 合成 路 线 设计 问题 ， 只 能 从 已 知 知 
识 中 找 出 规律 ,或 从 类 比 推测 。 基 于 前 者 建设 了 合成 反应 数据 库 , 基于 后 者 形成 计算 机 辅助 合成 
设计 系统 。 该 领域 当前 研究 方向 有 反应 数据 挖掘 和 反应 知识 发 现 、 反 应 知识 模型 的 表述 和 反应 知 
识 库 的 建立 、 化 合 物 反 应 性 能 的 预测 以 及 化 学 知识 的 类 比 推理 等 。 

随 着 各 种 物理 方法 和 物理 化 学 方法 在 化 合 物 结构 分 析 中 的 推广 应 用 , 质谱 、 光 谱 、 色谱、 电 
子 能 谱 等 谱 图 的 解析 已 成 了 比较 专业 的 学 问 , 不 仅 需 要 较 深 的 理论 功底 , 而 且 也 需要 丰富 的 实践 
经 验 。 各 种 谱 图 包含 有 大 量化 学 信息 ， 不 但 可 以 用 来 鉴定 未 知 物 的 成 分 ， 测 定 某 些 成 分 的 含量 ， 
而 且 可 以 用 来 探讨 或 确定 分 子 或 固体 的 结构 、 化 学 键 的 特征 等 。 理 想 的 做 法 应 当 是 彻底 弄 清 各 种 
谱 图 产生 的 机 理 ， 从 而 从 理论 上 完成 从 实测 谱 图 到 化 学 成 分 、 分 子 结构 、 化 学 键 特 征 等 化 学 信息 
的 交换 。 但 实际 上 很 难 完全 做 到 这 点 。 即 以 最 简单 的 光谱 一 一 原子 光谱 为 例 , 重 原子 的 原子 光谱 
迄今 为 止 多 数 谱 线 不 能 从 理论 上 解释 。 这样 就 不 得 不 用 经 验方 法 对 谱 图 做 鉴别 和 解析 工作 ,以 达 
到 化 学 分 析 和 结构 分 析 的 目的 。 由 于 化 合 物种 类 庞杂 , 谱 图 的 数据 亦 急剧 增加 , 单 赁 少数 有 经 验 
的 专家 来 做 谱 图 解析 已 不 能 满足 需要 。 随 着 计算 机 技术 、 人 工 智能 、 数 据 库 技术 的 发 展 , 利用 计 
算 机 做 谱 图 解析 的 各 种 方法 应 运 而 生 。 其 中 有 一 类 方法 是 数据 库 谱 图 显示 方法 , 即将 大 量 已 知 化 
合 物 的 谱 图 存 入 数据 库 ， 通 过 检索 的 方法 来 识别 谱 图 。 另 一 类 方法 是 利用 数据 挖掘 技术 , 它 利用 
已 知 谱 图 做 训练 点 ， 对 未 知 物 的 图 谱 作 分 类 、 鉴 别 以 至 结构 测定 等 。 由 于 化 合 物种 类 庞杂 、 数 目 
很 多 且 每 年 都 在 大 量 增加 , 单纯 依靠 已 知 谱 图 的 储存 和 检索 不 能 完全 解决 谱 图 解析 问题 。 由 于 数 
据 挖掘 技术 有 某 种 “举一反三 ”的 功能 ， 能 从 大 量 已 知 化 合 物 的 谱 图 做 分 类 工作 , 所 以 在 谱 图 解 
析 方 面 有 重要 的 实际 应 用 意义 。 迄 今 为 止 ， 利 用 数据 挖掘 可 以 对 质谱 、 原 子 光谱 、 红 外 光谱 、 拉 
曼 光谱 、 核 磁 共振 谱 、y 一 射线 谱 、 色 谱 等 的 谱 图 进行 识别 ， 并 不 同 程度 地 收 到 效果 ， 这 方面 的 
研究 工作 是 现代 分 析 化 学 的 前 沿 课题 。 


1.7.6 ”在 材料 研究 、 生 产 方 面 的 应 用 


金属 等 各 种 材料 具有 不 同 的 性 质 , 人 们 往往 根据 其 性 能 确定 它 的 用 途 。 但 是 寻找 一 种 新 的 材 
料 的 工作 是 十 分 艰苦 的 。 一 般 要 通过 大 量 的 “配方 炒菜 ” 式 的 实验 工作 , 才能 筛选 出 较 好 的 材料 。 
以 高 温 合金 为 例 , 试制 一 种 新 的 高 温 合金 要 初 筛 和 干 百 种 配方 , 初 选 后 还 要 做 成 干 小 时 的 高 温 长 期 
性 能 测试 。 这 一 类 先 搞 大 批 “ 配 方 炒菜 ”， 再 逐一 测试 性 能 的 工作 方法 会 消耗 大 量 人 力 、 物 力 和 
时 间 。 如 何 利用 计算 机 信息 处 理 方法 使 寻找 新 材料 的 工作 方式 有 所 改进 , 以 收 到 事半功倍 的 效果 ， 
是 近 数 十 年 来 许多 科学 家 努力 研究 的 课题 。 

瑞典 钢铁 公司 试制 了 15 种 新 钢 种 ， 在 新 钢 种 的 钢材 加 工 过 程 中 ， 有 9 种 钢材 开裂 ， 另 有 6 
种 不 开裂 。 为 了 查 明 钢 中 微量 元 素 对 钢材 开裂 的 影响 , 他 们 分 析 了 这 15 种 钢材 中 的 17 种 微量 元 
素 , 并 用 数据 技术 中 的 分 类 算法 寻找 规律 。 结 果 发 现 : “好 钢 ” 的 成 分 代表 点 集中 在 一 个 较 小 的 
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区 域 ， 可 包括 在 一 个 高 维 空间 的 包 络 面 内 ; 而 “ 坏 钢 ”的 数据 点 则 很 分 散 。 这 是 因为 引起 开裂 的 
原因 不 止 一 种 ， 所 以 “ 坏 钢 ”区 事实 上 是 多 个 区 域 的 释 加 。 

数据 挖掘 将 成 为 材料 研究 工作 者 不 可 缺少 的 工具 , 实验 工作 者 将 利用 它 整 理 实验 数据 , 从 实 
验 数据 中 最 大 限度 地 提取 信息 , 会 使 人 变 得 “聪明 ” 些 ， 少 走 弯路 , 快 些 获得 成 功 。 理 论 工作 者 
将 利用 它 寻 找 经 验 规 律 ， 从 中 得 到 新 的 启发 。 工 程 技术 人 员 可 以 用 它 总 结 生产 控制 、 分 析 检 验 中 
获得 的 数据 和 经 验 ， 有 利于 改进 生产 和 技术 管理 。 

数据 挖掘 技术 在 制造 业 应 用 的 需求 主要 是 产品 需求 分 析 、 产 品 故障 诊断 与 预测 、 精 确 营销 和 
工业 物 联网 分 析 等 。 通 过 数据 挖掘 能 够 使 客户 参与 到 产品 的 需求 分 析 和 产品 设计 中 , 为 产品 创新 
做 出 贡献 。 现代化 工业 制造 生产 线 安装 有 数 以 干 计 的 小 型 传感器 ， 来 探测 温度 、 压 力 、 热 能 、 振 
动 和 噪声 。 因 为 每 隔 几 秒 就 收集 一 次 数据 , 利用 这 些 数据 可 以 实现 很 多 形式 的 分 析 , 包括 设备 诊 
断 、 用 电量 分 析 、 能 耗 分 析 、 质 量 事故 分 析 ( 包括 违反 生产 规定 、 零 部 件 故障 ) 等 。 数 据 挖掘 技 
术 在 材料 生产 过 程 特别 是 生产 流程 (流程 工业 ) 中 也 起 着 非常 重要 的 作用 。 生 产 流程 是 指 生 产 连 
续 不 间断 或 半 间 断 批量 生产 的 工业 过 程 ， 如 炼油 、 化 工 、 电 力 、 冶 金 、 造 纸 等 行业 ， 其 共同 特点 
是 工艺 流程 基本 不 变 , 但 生产 周期 长 、 生 产 过 程 复 杂 、 工 艺 参数 特别 多 。 随 着 流程 工业 自动 化 、 
数字 化 水 平 的 不 断 提高 ,数据 越 来 越 丰富 ， 这 就 为 应 用 数据 挖掘 技术 提供 了 良好 的 契机 。 应 用 数 
据 挖掘 技术 可 以 将 产品 的 生产 成 本 、 产 品质 量 控制 等 生产 过 程 优化 。 

产品 质量 和 信誉 是 现代 企业 的 生命 线 ， 许 多 产品 的 质量 问题 要 在 长 期 使 用 中 才能 显露 出 来 。 
为 了 保证 产品 质量 的 可 靠 性 , 不 仅 要 把 握 好 产品 检验 关 , 更 为 重要 的 是 产品 生产 流程 中 的 质量 控 
制 。 一 般 产 品 生产 是 多 工艺 生产 ,各 个 工艺 都 有 影响 产品 质量 的 因素 。 如 影响 钢材 表面 质量 的 因 
素 有 : 元 素 成 分 含量 、 铸 坯 的 厚度 及 宽度 、 挖 掘 温度、 铸 坏 拉 速 、 时 间 等 。 假 定 产品 质量 指标 有 
多 个 影响 因素 , 数据 挖掘 的 目的 是 根据 对 产品 质量 的 影响 因素 和 产品 质量 指标 的 测量 数据 , 找 出 
这 两 者 之 间 的 函数 关系 式 或 模式 。 然 后 根据 得 到 的 模式 ， 既 可 以 对 新 的 工 况 参数 , 推断 其 对 应 的 
质量 指标 ， 即 产品 质量 预测 ; 也 可 以 根据 指定 产品 质量 目标 值 反 推 相应 的 影响 因素 值 ， 即 逆 质 量 
问题 ;还 可 以 据 此 关系 模式 找到 降低 原料 、 燃 料 消耗 的 方法 。 


1.7.7 在 机 械 故障 诊断 与 监测 中 的 应 用 


无 所 不 在 的 传感器 技术 的 引入 使 得 产品 故障 实时 诊断 和 预测 成 为 可 能 。 机 械 设备 运行 状态 监 
测 和 故障 诊断 最 本 质 的 工作 是 : 如 何 通过 对 机 器 外 部 征兆 的 监测 取得 特征 参数 的 正确 信息 , 并 进 
行 分 析 和 识别 。 从 本 质 讲 很 明显 , 机 械 设备 故障 诊断 与 监测 就 是 数据 挖掘 的 应 用 过 程 , 但 与 一 般 
的 数据 挖掘 应 用 相 比 ， 也 具有 几 个 特点 : 一 是 学 习 样本 集中 , 正常 运行 模式 样本 多 而 故障 运行 模 
式 少 ; 两 类 误 判 会 产生 不 同 程度 的 损失 , 一 般 情 况 下 将 正常 运行 模式 判 为 故障 运行 模式 即 错 判 所 
造成 的 损失 远 比 故障 模式 判 为 正常 运行 模式 即 漏 判 所 造成 的 损失 小 ; 三 是 生产 设备 投产 运行 一 段 
时 间 内 所 表现 出 的 状态 一 般 仅 有 正常 运行 模式 一 种 , 随 着 时 间 的 推移 , 其 他 运行 模式 才 可 能 相继 
出 现 ; 随 着 生产 设备 的 长 时 间 使 用 和 其 他 一 些 因素 的 出 现 ,设备 的 运行 参数 会 发 生 改变 ,因此 各 
运行 模式 之 间 的 划分 标准 可 能 改变 ; 设备 运行 状态 监测 和 故障 诊断 中 存在 较 强 的 模糊 性 ; 诊断 理 
论 具 有 广泛 的 通用 性 而 具体 样本 数据 和 各 种 参数 适用 面 却 很 罕 。 

因此 , 目前 常用 的 故障 检测 与 诊断 方法 主要 有 : 门限 检测 方法 、 信 号 处 理 方法 、 专 家 系统 方 
法 、 故 障 诊断 树 方法 、 模 式 识别 方法 、 模 糊 数 学 诊断 方法 、 人 工 神经 网 络 诊断 方法 和 信息 融合 的 
方法 等 。 在 这 些 方法 中 ,有些 算法 需要 足够 的 典型 故障 样本 ， 有 些 过 于 对 参数 摄 动 、 噪 声 干扰 等 
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因素 敏感 ， 有 些 由 于 受 随机 过 程 干扰 以 及 各 种 瞬 态 过 渡 过 程 的 存在 , 使 得 应 用 受到 限制 或 及 时 性 
和 准确 性 方面 存在 一 定 困 难 。 利 用 跨国 公司 客户 服务 数据 库 中 的 服务 数据 可 以 突破 数据 匮乏 瓶 
颈 ; 改进 算法 或 新 算法 可 以 克服 算法 的 不 足 。 


1.7.8 ”在 医疗 领域 中 的 应 用 


在 医疗 领域 中 , 大量 的 数据 可 能 已 存在 多 年 , 例如 病人 、 症 状 、 发 病 时 间 、 发 病 频率 以 及 当 
时 的 用 药 种 类 、 剂 量 、 住 院 时 间 等 。 利 用 这 些 数 据 挖掘 可 以 得 到 许多 成 绩 , 如 : 心电图 和 心 电 向 
量 图 的 分 析 ; 脑 电 图 的 分 析 ; 染色 体 的 自动 分 类 ; 癌 细 胞 的 分 类 ; 疾病 诊断 等 专家 系统 ; 血 相 分 
析 ; 医学 图 片 的 分 析 ， 包 括 义 光 片 、CT 片 等 图 像 的 分 析 等 等 。 

数据 挖掘 在 医学 上 的 应 用 很 多 , 前 景 广阔 。 通 过 数据 挖 据 不 仅 可 以 对 疾病 进行 诊断 , 而且 还 
可 以 进行 疾病 的 预测 。 随 着 卫生 保健 事业 的 发 展 和 人 们 生活 水 平 的 提高 , 健康 普查 将 越 来 越 普遍 
而 且 更 加 常态 化 ,普查 的 内 容 也 越 来 越 丰富 , 单纯 依靠 人 工分 析 和 判断 普查 结果 显然 不 能 满足 要 
求 ， 数 据 挖 据 技术 将 发 挥 更 大 的 作用 。 

微量 元 素 的 比例 失衡 是 许多 病 ( 尤其 是 地 方 病 ) 的 病因 或 重要 因素 。 微 量 元 素 硒 的 防 癌 作 用 
近年 来 受到 广泛 关注 。 同时 也 发 现 其 他 几 种 元 素 对 硒 有 持 抗 作用 。 为 了 查 明 多 种 微量 元 素 对 癌症 
发 病 率 的 影响 ， 对 25 个 国家 和 两 个 地 区 的 居民 ( 通过 饮食 ) 对 三 、 锌 、 饮 、 铜 、 铬 、 砷 的 平均 
摄 入 量 为 特征 量 构成 多 维 空间 , 将 这 些 国家 或 地 区 的 癌症 死亡 率 记 入 其 中 , 作 分 类 分 析 , 可 以 看 
出 乳癌 高 发 病 国家 和 乳癌 低 发 病 国家 分 布 在 不 同 区 域 ， 其 间 有 明显 的 分 界线 。 

用 数据 挖掘 方法 研究 肺癌 早期 诊断 问题 ， 也 获得 显著 成 功 。 取 大 量 的 人 的 头发 分 析 硒 、 锌 、 
锅 、 铜 、 铬 、 砷 、 铅 、 锡 8 种 微量 元 素 ， 考 察 并 收集 其 中 与 肺癌 有 关 的 信息 并 用 分 类 方法 处 理 ， 
发 现 其 中 硒 、 锌 、 饮 、 铬 、 砷 5 种 元 素 与 肺癌 有 关 。 

除 癌症 诊断 外 , 数据 挖掘 技术 还 可 应 用 于 其 他 临床 化 学 课题 。 许多 病 都 靠 多 种 化 验 数据 诊断 
得 出 , 数据 挖掘 可 用 于 化 验 数据 自动 化 解释 工作 。 例 如 区 别 甲 状 腺 功能 的 三 种 情况 , 证 明 只 用 两 
组 实验 即 可 区 别 ， 而 不 是 如 同 以 前 人 们 认为 的 那样 需 一 种 实验 结构 才能 判断 。 

在 药物 实验 中 , 可 能 有 很 多 不 同 的 组 合 , 每 种 若 均 加 以 实验 , 则 成 本 太 大 ,数据 挖掘 技术 可 
以 大 大 减少 实验 次 数 以 节省 成 本 。 生 物 医学 的 大 量 研究 大 都 集中 在 DNA 数据 的 分 析 上 ， 人 类 大 
约 有 105 个 基因 , 一 个 基因 通常 由 成 百 个 核 苷 按 一 定 序列 组 成 , 核 苷 按 不 同 的 次 序 可 以 组 成 不 同 
的 基因 ， 几 乎 是 不 计 其 数 ， 因 此 ， 数 据 挖 掘 成 为 DNA 分 析 中 的 强力 工具 ， 如 对 DNA 序列 间 的 
相似 搜索 和 比较 ; 应 用 关联 分 析 对 同时 出 现 的 基因 序列 的 识别 ; 应 用 路 径 分 析 发 现在 疾病 不 同 阶 
段 的 致 病 基因 等 。 

以 上 只 是 列举 了 数据 挖掘 的 一 些 应 用 , 而 不 是 包罗 万 象 . 随 着 各 有 关 交 义学 科 的 进一步 发 展 ， 
数据 挖掘 也 一 定 能 够 进一步 在 完善 自己 的 理论 基础 上 得 到 各 行 各 业 的 进一步 有 效应 用 ， ep 
的 数据 挖掘 算法 从 原 领 域 中 分 化 出 来 ,并 正在 形成 一 个 学 科 。 可 以 预见 ,在 不 久 的 将 来 ， 
数据 挖掘 的 决策 系统 将 为 各 行 各 业 发 展 起 到 不 可 替代 的 关键 作用 。 wm 
掘 技术 的 价值 和 前 景 。 

(1 ) 有 关 学 者 撰文 指出 ， 门 户 解决 了 Web 0.5 时 代 的 信息 匮乏 ; Google 解决 了 Web 1.0 时 
代 的 信息 泛滥 ; Facebook 解决 了 Web 2.0 时 代 的 社交 需求 ; 未 来 将 是 谁 的 十 年 ? 展望 Web 3.0 时 
代 ， 当 高 效 的 社交 网 络 趋 于 信息 量 爆 炸 时 ， 我 们 庞大 的 社交 关系 也 需要 一 个 “Google” 来 处 理 ， 
那 就 是 下 一 个 十 年 ， 数 据 挖 掘 的 十 年 ， 网 络 智能 的 十 年 。 
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(2 ) 2005 年 微软 将 “互联 网 搜索 、 数 据 挖掘 与 语音 技术 ”确定 为 亚洲 研究 院 的 三 大 重点 研 
发 领域 。 

(3 ) 美国 2008 年 评选 的 12 个 最 有 前 途 的 职业 中 数据 挖 据 师 排名 第 四 。 

(4) 包括 IBM 在 内 的 世界 数据 库 厂商 , 纷纷 在 数据 挖掘 领域 加 大 投入 ， 把 数据 挖 气功 能 集 
成 到 其 产品 中 , 以 提高 产品 的 竞争 力 , 2009 年 10 月 2 日 IBM 成 功 收购 了 SPSS Inc, 微软 也 在 其 
SQL Server 2005 、Excel 2007 中 骨 入 了 数据 挖掘 功能 。 

(5 ) 国际 数据 公司 的 研究 表明 ， 数 据 领域 存在 着 1.8 亿 GB 的 数据 ， 企 业 数 据 正在 以 55% 的 
速度 逐年 增长 。 如 今 ， 只 需 两 天 就 能 创造 出 文明 诞生 以 来 至 2003 年 所 产生 的 数据 的 总 和 。“ 大 数 
据 ” 已 经 成 为 重要 的 时 代 特 征 。 麦 肯 锡 全 球 研 究 机 构 2011 年 5 月 在 《大 数据 : 创新 、 竞 争 和 生产 
力 的 下 一 个 前 沿 领 域 》 中 指出 ， 充 分 利用 大 数据 可 帮助 全 球 个 人 定位 服务 提供 商 增加 1000 亿美 元 
的 收入 ， 帮 助 欧洲 公共 部 门 的 管理 行业 每 年 提升 2500 亿美 元 产值 ， 帮 助 美 国医 疗 保健 行业 每 年 提 
升 3000 亿美 元 产值 ， 并 可 帮助 美国 零售 业 获 得 60% 以 上 的 利润 增长 率 。 由 此 可 见 ， 充 分 利用 大 数 
据 和 挖掘 大 数据 商业 价值 将 为 行业 、 企 业 带 来 强大 的 竞争 力 。 

数据 挖掘 有 广泛 的 应 用 领域 , 但 数据 挖掘 技术 并 不 是 万 能 的 , 同时 也 遇 到 了 一 些 难题 。 银行、 
零售 业 等 行业 的 数据 挖掘 必然 要 涉及 消费 者 个 人 隐私 问题 ， 这样 就 会 带 来 一 些 社会 问题 。 如 何 避 
免 不 必 要 的 与 消费 者 之 间 的 纠纷 ， 合 理 利用 消费 者 数据 等 ， 是 当前 数据 挖掘 面临 的 问题 。 

数据 库 也 变 得 越 来 越 庞大 、 越 来 越 难 操纵 。 特 别 是 大 企业 、 高 层 政府 部 门 的 数据 库 ， 这 些 单 
位 往往 拥有 十 几 种 甚至 几 十 种 数据 , 数 干 个 数据 库 表 , 并 且 还 可 能 存储 在 数 家 企业 提供 的 分 布 式 
数据 库 系统 中 ， 如 何 从 中 得 出 有 用 的 信息 对 数据 挖掘 提出 了 严峻 挑战 。 

数据 挖掘 的 工业 标准 还 正 处 于 形成 过 程 中 。 具有 一 个 好 的 数据 挖掘 工业 标准 将 有 助 于 数据 挖 
据 系 统 平台 开发 的 标准 化 ， 有 助 于 方便 地 支持 交互 式 的 数据 挖掘 和 灵活 有 效 的 知识 发 现 。 

数据 挖掘 不 会 蔡 代 有 经 验 的 商业 分 析 师 或 管理 所 起 的 作用 ， 毕 竟 它 只 是 提供 一 个 强大 的 工 
具 ， 而 不 是 有 魔力 的 权 杖 。 数 据 挖掘 得 到 的 预测 模型 可 以 告诉 你 会 如 何 ， 但 不 能 说 明 为 什么 会 如 
此 。 数据 挖掘 不 能 在 缺乏 指导 的 情况 下 自动 地 发 现 模型 或 模式 , 因此 在 开始 任何 数据 挖掘 项 目 之 
前 ,必须 回答 一 个 重要 的 问题 : 是 否 真 的 需要 用 数据 挖掘 技术 ? 要 对 此 做 出 决定 , 重要 的 是 理解 
所 需 的 数据 挖掘 技术 的 复杂 度 级 别 , 例如 是 否 需要 一 个 标准 的 打印 好 的 报表 , 还 是 需要 交互 式 的 
联机 分 析 处 理 ( Online Analytical Processing，OLAP ) 来 分 析 数 据 的 各 种 特征 以 及 是 否 需要 用 真 
正 的 数据 挖 据 技术 来 建立 预测 模型 、 搜 索 数 据 库 以 获得 有 用 的 模式 。 选择 一 种 数据 挖掘 技 术 和 某 
种 数据 挖掘 产品 的 关键 在 于 产品 能 否 带 来 商业 价值 ， 否 则 一 般 的 数据 分 析 就 足够 了 。 








第 2 篇 数据 挖掘 算法 


数据 挖掘 任务 有 很 多 实现 方法 ， 这 些 方法 不 仅 需要 选 定 的 数据 结构 ， 而 且 需要 特定 的 算法 。 
一 个 好 的 算法 应 是 兼顾 效率 和 准确 性 的 。 一 种 准确 性 较 高 但 耗 时 巨大 (以 天 为 计 ) 的 算法 是 不 能 
应 用 于 数据 挖掘 中 的 ， 而 且 算法 必须 同时 对 训练 样本 和 测试 样本 都 有 较 好 的 预测 准确 性 ,不 能 产 
生 “ 过 拟 合 ”现象 。 

数据 挖掘 算法 根据 得 到 的 模型 特点 可 以 分 成 两 类 , 即 参 数 模型 算法 和 非 参数 模型 算法 。 参 数 
模型 用 带 参 数 的 代数 方程 来 描述 输入 与 输出 之 间 的 关系 ,其 中 有 些 参数 是 选 定 的 。 方 程 中 的 选 定 
参数 由 输入 实例 确定 。 尽管 参数 模型 是 一 个 很 好 的 理论 论题 并 且 有 时 也 能 应 用 于 实际 , 但 它 常常 
过 于 简单 ,或 者 对 涉及 的 数据 要 求 过 多 的 、 无 法 获得 的 知识 , 因此， 对 于 现实 世界 中 的 问题 来 说 ， 
这 些 参 数 模型 可 能 是 不 实用 的 。 

与 参数 化 方法 相 比 ， 非 参数 化 方法 更 适合 于 数据 挖掘 应 用 。 非 参数 模型 是 数据 驱动 的 模型 
它 不 使 用 显 式 的 方程 来 确定 模型 。 这 就 意味 着 建 模 过 程 更 适用 人 工 处 理 的 数据 。 非 参数 化 方法 不 
像 参 数 化 方法 那样 事先 确定 一 个 特定 的 模型 ， 而 是 依据 输入 的 数据 创建 模型 。 参 数 化 方法 在 建 模 
前 需要 更 多 的 有 关 数 据 的 知识 ,而 非 参数 化 方法 则 需要 大 量 的 数据 作为 建 模 过 程 本 身 的 输入 ， 然 
后 通过 节选 这 些 数据 来 创建 模型 , 近来 的 非 参数 方法 已 经 能 够 应 用 机 器 学 习 技术 在 输入 数据 时 进 
行动 态 的 学 习 ， 因 此 数据 越 多 ， 创 建 的 模型 就 越 好 。 另 外 ， 这 种 动态 学 习 过 程 允 许 随 着 数据 的 输 
入 持续 地 创建 模型 。 这 些 特征 使 非 参 数 化 方法 尤其 适用 于 有 大 量 动态 数据 变更 的 数据 库 。 非 参数 
方法 包括 人 工 神经 网 络 、 决 策 树 和 遗传 算法 。 

数据 挖掘 包含 很 多 算法 ,如 下 图 所 示 。 具体 使 用 哪 种 算法 , 要 根据 具体 情况 和 应 用 要 求 而 定 。 
一 种 数据 挖掘 算法 可 能 在 一 种 情况 下 适用 ， 而 在 另 一 种 情况 下 就 不 适用 。 在 特定 的 应 用 环境 下 ， 
我 们 应 能 找 出 最 适用 的 数据 挖掘 算法 ， 并 加 以 实施 。 可 以 看 出 ， 数 据 挖掘 本 质 上 就 是 数学 建 模 ， 
即 发 现 客观 事物 的 规律 。 
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2.1 决策 树 算法 概述 


决策 树 是 一 种 用 于 分 类 、 聚 类 和 预测 的 预测 型 建 模 方法 ， 它 采用 “分 而 治之 ”的 方法 将 问题 
的 搜索 空间 分 为 若干 子 集 , 其 形式 类 似 于 流程 图 。 其 中 , 每 个 内 部 节点 表示 在 一 个 属性 上 的 测试 ， 
每 个 分 支 代表 一 个 测试 输出 ， 而 每 个 树 节点 存放 一 个 类 标号 。 树 的 最 项 层 节点 是 根 节点 。 决 策 树 
也 可 解释 为 一 种 特殊 形式 的 规则 集 , 其 特征 是 规则 的 层次 组 织 关系 。 决 策 树 可 以 由 分 析 训 练 数据 
的 算法 创建 ， 或 者 由 领域 专家 创建 。 大 多 数 决 策 树 技术 随 树 的 创建 过 程 不 同 而 不 同 。 

决策 树 的 原理 与 “20 问 ” 游戏 类 似 。 图 2.1 为 游戏 的 步 又, 这 棵 树 的 根 是 所 问 的 第 一 个 问题 ， 
树 中 每 层 由 游戏 中 这 一 阶段 的 问题 组 成 , 叶 节 点 代表 成 功 地 猜 到 了 希望 预测 的 对 象 , 它 表 示 这 是 
一 个 正确 的 预测 。 


活 的 ? 
曾经 是 活 的 ? A 人 ? 
时 是 ee 
哺乳 动物 ? 朋友 ? 
A 再 [有 
~ - 家 庭 成 员 ? 
百 / Ne 
妈妈 ? 
否 是 


图 2.1 “20 问 游戏 ”的 决策 树 

决策 树 是 主要 针对 “以 离散 型 数量 作为 属性 类 型 进行 分 类 ”的 学 习 方法 ， 对 于 连续 型 变量 ， 
必须 被 离散 化 后 才能 进行 学 习 和 分 类 。 

决策 树 算法 具有 一 些 优点 。 决 策 树 的 构造 不 需要 任何 领域 知识 或 参数 设置 ， 因 此 适合 于 探究 
式 知识 的 发 现 。 决策 树 可 以 处 理 高 维 数据 。 获取 的 知识 树 的 形式 表示 是 直观 的 , 并 上 且 容易 被 人 理解 。 
决策 树 学 习 的 归纳 和 分 类 步骤 是 简单 和 快速 。 一般 情 况 下 决策 树 具 有 很 好 的 准确 率 。 但 也 存在 一 些 
缺点 ， 如 决策 树 算法 不 易 处 理 连 续 性 数据 ; 数据 的 属性 域 必须 被 划分 为 不 同 的 类 别 才能 处 理 ， 有 时 
这 样 的 划分 比较 困难 ; 决策 过 程 忽略 了 数据 库 属性 之 间 的 相关 性 等 ; 在 处 理 较 大 数据 库 时 算法 的 额 
外 开销 较 大 ， 降 低 了 分 类 的 准确 性 ; 数据 复杂 性 提高 ， 分 支 数 增加 ， 管 理 的 难度 会 越 来 越 大 。 


2.2 ”决策 树 基本 算法 


一 棵 决策 树 的 内 部 节点 是 属性 或 者 是 属性 的 集合 ， 而 叶 节点 就 是 学 习 划分 的 类 别 或 结论 , 内 
部 节点 的 属性 称 为 测试 属性 或 分 裂 属性 。 

当 通 过 一 组 样本 数据 集 的 学 习 产生 了 一 棵 决策 树 后 ， 就 可 以 对 一 组 新 的 未 知 数据 进行 分 类 。 
使 用 决策 树 对 数据 进行 分 类 时 , 采用 自 顶 向 下 的 递归 , 对 决策 树 内 部 节点 进行 属性 值 的 判断 比较 
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根据 不 同 的 属性 值 决定 走向 哪 一 条 分 支 ， 在 叶 节 点 处 就 得 到 了 新 数据 的 类 别 或 结论 。 图 2.2 就 是 
一 棵 决策 树 , 其 中 A、B、C 表示 属性 名 ， a1、a，,、b1、b2、c1、c; 分 别 表示 属性 A、B、C 的 取 值 。 
当 属 性 A 的 取 值 为 al 时， 属性 B 的 取 值 为 5， 它 属 于 第 二 类 。 





| 和 
回 
bi by c CG 
图 2.2 简单 决策 树 


根据 决策 树 的 内 部 节点 的 各 种 不 同 的 属性 ， 可 以 将 决策 树 分 为 以 下 三 种 。 
(1 ) 当 决 策 树 的 每 一 个 内 部 节点 都 只 包含 一 个 属性 时 ， 称 为 单 变量 决策 树 ; 当 决 策 树 存在 
包含 多 个 变量 的 内 部 节点 时 ， 称 为 多 变量 决策 树 。 
(2 ) 根据 测试 属性 的 不 同属 性 值 的 个 数 , 可 能 使 得 每 一 个 内 部 节点 有 两 个 或 者 是 多 个 分 支 。 
如 果 每 一 个 内 部 结构 只 有 两 个 分 支 则 称 为 二 叉 决策 树 。 
(3 ) 分 类 结果 可 能 是 两 类 也 可 能 是 多 类 。 二 叉 决 策 树 的 分 类 结果 只 能 有 两 类 ， 故 也 称 为 布 
尔 决策 树 。 
从 图 2.2 中 可 看 出 ,决策 树 算法 通常 分 为 两 个 阶段 ， 即 树 的 构建 阶段 和 树 的 修 前 阶段。 在 树 
的 构建 的 过 程 中 ， 计 算 分 支 指标 ( splitting index，SI) 是 关键 。 不 同 的 决策 树 算法 采用 不 同 的 分 
支 指标 ，ID3 、C4.5 使 用 的 分 支 指标 是 信息 增益 ( information gain )， 而 CART 算法 、SLIQ 算法 
和 SPRINT 算法 使 用 gini 指标 。 这 些 指标 值 决定 了 在 哪个 属性 处 发 生 分 裂 。 
剪 枝 的 目的 是 降低 由 于 训练 集中 存在 噪声 而 产生 的 起 伏 使 得 决策 树 产生 不 必要 的 分 支 , 从 而 
导致 在 使 用 决策 树 模型 时 对 实测 样本 实施 分 类 中 出 错 。 
大 多 数 决策 树 算法 都 需要 面临 下 列 问题 
。 ”选择 分 裂 属性 : 在 构建 决策 树 的 过 程 中 ， 哪 个 属性 作为 分 裂 属性 会 影响 算法 性 能 。 属 
性 的 选择 不 仅 涉 及 检验 训练 集中 的 数据 ， 而 且 还 需要 参考 领域 专家 的 建议 。 
。 ”分 裂 属性 的 次 序 : 选择 分 裂 属 性 的 次 序 也 是 很 重要 的 。 较 好 的 分 裂 次 序 可 以 减少 算 
法 量 。 
。 ”分 裂 : 与 分 类 属性 的 次 序 相应 的 是 确定 分 裂 的 数目 。 分 裂 的 数目 要 根据 属性 的 定义 域 
来 确定 。 
。 ” 树 的 结构 : 为 了 改进 应 用 树 进行 分 类 的 性 能 ， 总 是 希望 得 到 具有 最 少 层次 的 平衡 树 。 
。 ” 当 训 练 数据 被 正确 分 类 时 ， 树 的 产生 过 程 就 应 停止 。 为 了 防止 产生 过 大 的 树 或 产生 过 
拟 合 ， 有 时 也 希望 提前 停止 。 提 前 停止 指标 需 综合 考虑 分 类 精度 和 性 能 等 多 个 因素 。 
。 ”训练 数据 : 产生 的 决策 树 的 结构 取决 于 训练 数据 。 如 果 训 练 数据 集 太 小 ， 则 产生 的 树 
于 没有 足够 的 特殊 性 ， 而 不 能 很 好 地 应 用 于 更 加 通用 的 数据 。 如 果 训 练 数据 集 太 大 ， 
则 产生 的 树 可 能 产生 过 拟 合 。 
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。 “ 剪 枝 : 一 棵 树 被 构建 后 ， 还 需要 对 树 进 行 修剪 以 提高 分 类 阶段 树 的 性 能 。 剪 枝 阶段 可 
能 会 删除 过 多 的 比较 或 者 删 去 一 些 子 树 ， 以 获得 更 好 的 性 能 。 

在 设计 构建 决策 树 算法 时 , 总 是 希望 得 到 可 以 对 数据 集 进行 正确 分 类 的 最 佳 形 状 的 树 。 树 归 

纳 算法 和 训练 数据 共同 决定 树 的 形状 。 

图 2.3 为 同一 问题 的 不 同 决策 树 。 对 于 大 型 数据 库 通常 期 望 得 到 短 的 平衡 树 。 
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图 2. 3 决策 树 的 比较 
决策 树 算法 的 时 间 和 空间 复杂 性 取决 于 训练 数据 的 规模 、 属 性 数目 以 及 最 终 产 生 的 树 的 形 
状 。 在 最 坏 的 情况 下 ,构建 的 决策 树 深度 可 能 很 深 而 不 茂密 。 


2.3 ID3 算法 


ID3 算法 是 各 种 决策 树 算法 中 最 有 影响 力 、 使 用 最 广泛 的 一 种 ， 其 基本 策略 是 首先 选择 具有 
最 高 信息 增益 的 属性 作为 分 裂 属性 。 
设 样本 数据 集 为 全, 类 别 数 为 n。 设 属于 第 i 类 的 样本 数据 个 数 是 C, 开 中 总 的 样本 数 为 | 工 | ， 


则 一 个 样本 属于 第 i 类 的 概率 P(C;) x 站 。 此 时 决策 树 对 划分 C 的 不 确定 程度 ( 即 信息 焙 ) 为 























HO.O= HO = Vp(C) log, p(C) 
i=l 


32 


第 2 章 决策 树 算法 @ 


若 选择 属性 a ( 设 属性 a 有 m 个 不 同 的 取 值 ) 进行 测试 ， 其 不 确定 程度 ( 即 条 件 炉 ) 为 


HX IO) =-$ Fp(C,a=a logs p(C, la=a)) 
1 j=1 


= SY pa=a)p(C, la=a)log, p(C; la=a)) 


1 j=1 
“Plan pC lo -oDog, p(C: la =a) 


则 属性 a 对 于 分 类 提供 的 信息 晤 为 

1(X,a)=H(X)-H(X|a) 

式 中 :7CEa) 表 示 属 性 作为 分 类 属性 之 后 信息 糖 的 下 降 的 程度 ， 亦 即 不 确定 性 下 降 的 程度 ( 亦 

称 为 信息 增益 )， 所 以 应 该 选择 使 得 1CC.a) 最 大 的 属性 作为 分 类 属性 ,这 样 得 到 的 决策 树 的 确定 

性 最 大 。 

ID3 算法 的 步 又 如 下 。 

(1) 选 出 整个 样本 数据 集 工 的 规律 为 玉 的 随机 子 集 总 ( 万 称 为 窗口 规模 , 子 集 称 为 窗口 )。 

(2) 以 ZX,q) = 有 CX) 有 (X14) 的 值 最 大 ， 即 HCY | a) 的 值 最 小 为 标准 ， 选 取 每 次 的 测试 
属性 ， 形 成 当前 窗口 的 决策 树 。 

(3 ) 顺序 扫描 所 有 样本 数据 ， 找 出 当前 的 决策 树 的 例外 ， 如 果 没有 例外 ， 则 结束 算法 。 

(4 ) 组 合 当前 窗口 的 一 些 样 本 数据 与 某 些 在 (3 ) 中 找到 的 例外 形成 新 的 窗口 ， 转 (2)。 

基本 的 ID3 算法 采用 信息 增益 作为 单一 的 属性 的 度量 ,试图 减少 树 的 平均 深度 , 而 忽略 了 对 
叶子 数目 的 研究 ,导致 了 许多 问题 : 信息 增益 的 计算 依赖 于 属性 取 值 的 数目 较 多 的 特征 ,而 属性 

取 值 较 多 的 属性 不 一 定 是 最 优 属性 ， 抗 噪 性差， 训练 集中 正 例 和 反例 较 难 控制 。 因 此 ， 针 对 ID 

算法 的 不 足 ， 提 出 了 许多 改进 策略 。 

@ 离散 化 :在 处 理 连续 性 属性 时 ， 可 以 将 其 离散 化 。 最 简单 的 方法 是 将 属性 值 分 成 两 段 

对 任何 一 个 属性 ， 其 所 有 的 取 值 在 一 个 数据 集中 是 有 限 的 。 假 设 该 属性 取 值 为 

1 auoz ,an |， 首 先 将 其 值 按 递增 顺序 排列 ， 然 后 每 对 相 令 值 的 中 点 看 作 可 能 的 分 裂 点 ， 

存在 -1 个 分 段 人 入 ( 即 为 均值 ， 如 所 2 )。1D3 算法 采用 计算 信息 量 的 方法 计算 
最 佳 的 分 段 值 ， 然 后 进一步 构建 决策 树 。 

@ 空缺 值 处 理 ， 训 练 集中 的 数据 可 能 会 出 现 某 一 训练 样本 中 某 一 属性 值 空缺 的 情况 ， 因 此 
必须 进行 空缺 值 处 理 。 可 以 用 属性 值 的 最 常见 值 、 平 均值 、 样 本 平均 值 等 代 蔡 空谷 值 。 

@@ 属性 选择 度量 :在 决策 树 的 构建 过 程 中 ， 有 许多 的 属性 选择 度量 。 可 以 采用 其 他 属性 选 
择 度量 来 提高 算法 的 性 能 。 

@ 可 华 缩 性 : ID3 算法 对 于 相对 较 小 的 训练 数据 是 有 效 的 ， 但 对 于 现实 世界 中 数 以 百 万 计 
的 训练 数据 集 ， 需 要 频繁 地 将 训练 数据 在 主 存 和 高 束 绥 存 中 换 进 换 出 ， 从 而 导致 算法 的 
性 能 低下 。 因 此 可 以 将 训练 数据 分 成 几 个 子 集 ， 使 得 每 个 子 集 能 够 放 入 内 存 ， 然 后 由 每 
个 子 集 构造 一 棵 决策 树 ， 最 后 ， 将 每 个 子 集 得 到 的 分 类 规则 组 合 起 来 ， 得 出 输出 的 分 类 
规则 。 

@@ 碎片 、 重 复 和 复制 处 理 : 碎片 是 指 在 一 个 给 定 的 分 支 中 的 样本 数 太 少 从 而 失去 统计 意义 。 
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解决 的 方法 是 将 分 类 属性 分 组 ， 决 策 树 节点 可 以 测试 一 个 属性 值 是 否 属于 给 定 的 集合 ; 
另 一 种 解决 方法 是 创建 二 叉 决策 树 ， 在 树 的 节点 上 进行 属性 的 布尔 测试 ， 从 而 可 以 减少 
碎片 。 
当 一 个 属性 沿 树 的 一 个 给 定 的 分 支 重 复 测试 时 , 将 出 现 重复 。 复 制 是 指 复制 树 中 已 经 存在 的 
子 树 ， 以 上 问题 可 以 由 给 定 的 属性 构造 新 的 属性 〈 即 属性 构造 ) 来 解决 。 


2.4 C4.5 算法 


C4.5 算法 是 ID3 算法 的 改进 ， 它 是 在 ID3 基础 上 增加 了 对 连续 属性 、 属 性 值 空缺 情况 的 处 
理 ， 对 树 剪 枝 也 有 了 较为 成 熟 的 方法 。 

与 ID3 算法 不 同 ，C4.5 算法 选取 具有 最 高 信息 增益 率 的 属性 作为 测试 属性 。 对 样本 集 7, 假 
设 变 量 a 有 nn 个 属性 ， 属 性 取 值 a1,a2,…,ax， 对 应 a 取 值 a; 出 现 的 样本 数 分 别 为 nz;， 若 n 是 样本 
的 总 数 ， 则 应 有 nn +n,+-…+n =n。C4.5 算法 利用 属性 的 灶 来 定义 为 了 获取 样本 关于 属性 的 
信息 所 需要 付出 的 代价 ， 即 


nn kn 
H(X,q) =- pa)log, pai) ~ log, ee 
i=1 i=1l 


信息 增益 率 定义 为 平均 互信 息 与 获取 信息 所 付出 代价 的 比值 ， 即 
1(X,a) 
H(X,a) 
即 信息 增益 率 是 单位 代价 所 取得 的 信息 量 , 是 一 种 相对 的 信息 量 不 确定 性 度量 。 以 信息 增益 率 作 
为 测试 属性 的 选择 标准 ， 是 选择 ECXa) 最 大 的 属性 a 作为 测试 属性 。 

算法 C4.5 在 如 下 几 个 方面 优 于 ID3 算法 。 

(1 ) 一 些 样本 的 某 些 属性 取 值 可 能 为 空 ， 在 构建 决策 树 时 ， 可 以 将 这 些 缺 失 值 用 最 常用 的 
值 代 蔡 , 或 者 用 该 属性 的 所 有 取 值 的 平均 值 代 奉 ， 从 而 处 理 缺 少 属性 值 的 训练 样本 。 另 一 种 解决 
方法 是 采用 概率 的 方法 ,对 属性 的 每 一 个 取 值 赋予 一 个 概率 , 在 划分 样本 集 时 ,将 未 知 属性 值 的 
样本 按照 属性 值 的 概率 分 配 到 子 节点 中 去 ， 这 些 概率 的 获取 依赖 于 已 知 的 属性 值 的 分 布 。 

(2 ) C4.5 算法 不 仅 可 以 处 理 离散 属性 ， 也 可 以 处 理 连续 属性 。 基 本 思想 是 按 数 值 属性 值 的 
大 小 对 样本 排序 , 从 中 选择 一 个 分 割 点 , 划分 数值 属性 的 取 值 区 间 , 从 而 将 ID3 的 处 理 扩充 到 数 
值 属性 上 来 。 

(3 ) 增加 了 剪 枝 算法 。 在 C4.5 算法 中 ， 有 两 种 基本 的 剪 枝 策略 : 

。 “ 子 树 替代 法 剪 枝 是 指 用 叶 节点 蔡 代 子 树 。 仅 当 蔡 代 后 的 误差 率 与 原始 树 的 误差 率 接近 
时 才 蔡 代 。 子 树 蔡 代 是 从 树枝 向 树 根 方向 进行 的 。 
子 树 上 升 法 是 指 用 一 棵 子 树 中 最 常用 的 子 树 来 代替 这 棵 子 树 。 子 树 从 当前 位 置 上 升 到 

树 中 较 高 的 节点 处 。 对 于 这 种 蔡 代 也 需要 确定 误差 率 的 增加 量 。 

(4) 分 裂 时 ID3 算法 偏 祖 具有 较 多 值 的 属性 ， 因 而 可 能 导致 过 拟 合 ， 而 信息 增益 率 函 数 可 
以 弥补 这 个 缺陷 。 

(5 ) 使 用 左 次 迭代 交叉 验证 ， 评 估 模 型 的 优 劣 程度 。 交 叉 验 证 是 一 种 模型 评估 方法 ， 它 将 
使 用 学 习 样本 产生 的 决策 树 模型 应 用 于 独立 的 测度 样本 ， 从 而 对 学 习 的 结果 进行 验证 。 如 果 对 学 


E(X,a)= 




















第 2 章 决策 树 算法 @ 


习 样 本 进行 分 析 产生 的 大 多 数 或 者 全 部 分 支 都 是 基于 随机 噪声 的 , 那么 使 用 测试 样本 进行 分 类 的 
结果 将 非常 差 。 如 果 将 上 述 的 学 习 一 验证 过 程 重复 次 , 就 称 为 次 迭代 交叉 验证 。 首 先 将 所 有 
的 训练 样本 平均 分 成 份 , 每 次 使 用 其 中 的 一 份 作为 测试 样本 , 使 用 其 余 的 份 作为 学 习 样 本 , 然后 
选择 平均 分 类 精度 最 高 的 树 作为 最 后 结果 。 通 常 分 类 精度 最 高 的 树 并 不 是 节点 最 多 的 树 。 

但 是 C4.5 算法 同样 存在 缺点 ， 它 偏向 于 选择 对 统一 属性 值 比较 集中 的 属性 ( 即 粹 值 最 小 的 
属性 )， 而 并 不 一 定 是 对 分 类 贡献 最 大 、 最 重要 的 属性 。 


2.5 ” CART 算法 


在 ID3 与 C4.5 算法 中 ， 当 确定 作为 某 层 树 节点 的 变量 属性 值 较 多 时 ， 按 每 一 属性 值 引出 一 
个 分 支 进行 递归 算法 ， 就 会 出 现 引出 较 多 的 分 支 , 对 应 算法 次 数 也 多 , 使 决策 树 建树 算法 速度 组 
慢 。 解 决 这 个 问题 的 方法 是 建立 二 叉 决策 树 ， 即 使 每 个 树 节点 只 产生 两 个 分 支 (二 又 )。CART 
算法 即 为 这 样 一 种 算法 。CART 算法 确定 树 节点 ( 即 测试 属性 ) 与 ID3 算法 一 样 ， 以 平均 互信 息 
作为 分 裂 属性 的 度量 ， 对 于 取 定 的 测度 属性 变量 a， 若 有 1 个 属性 值 s1,s2,… ,ww， 应 选取 “最 佳 ” 
分 裂 值 属性 值 s; 作 为 分 裂 点 引出 两 个 分 支 ， 以 使 分 类 结果 是 尽 可 能 合理 正确 。“ 最 佳 ”分 裂 属 性 
值 应 满足 条 件 











DP(so /a) = max P(s; / a) 
其 中 


Os/4) =2B.Pe YI PC |ar) -PC |an)| 
j=l 


(s/q) 主要 度量 在 节点 a 的 s 属性 值 引出 两 个 分 支 时 ， 两 分 支出 现 的 可 能 性 以 及 两 分 支 每 个 分 
类 结果 出 现 的 可 能 性 差异 大 小 。 当 @(s / q) 较 大 时 ， 表 示 两 分 支 分 类 结果 出 现 的 可 能 性 差异 大 ， 
即 分 类 不 均匀 , 特别 地 , 当 一 分 支 完 全 含有 同一 类 别 结 果 的 样本 而 另 一 分 支 不 含有 时 , 差异 最 大 ， 
这 种 情况 越 早 出 现 表示 利用 越 小 节点 ， 可 以 越 快 获得 分 类 结果 。@(s /a) 中 的 工 和 R 是 指 树 中 当 
前 节点 的 左 子 树 和 右 子 树 。Pr 和 Pr 分 别 代表 在 训练 集 ( 样本 集 ) 中 的 样本 在 树 的 左边 和 右边 的 
概率 ， 其 计算 公式 为 
PL- 左 子 树 中 的 样本 数 
样本 总 数 


Pe -应 子 树 中 的 样本 数 
样本 总 数 


P (Gla) 与 P( Gla) 分 别 指 在 左 子 树 和 右 子 树 中 的 样本 属于 C; 的 概率 ， 其 计算 公式 为 
左 子 树 属于 类 的 样本 数 


“Ga 节点 样本 数 
_ 右 子 树 属于 C 类 的 样本 数 
“GCC 1 人 )- 中 节 点 样本 数 


CART 的 一 大 优点 是 它 将 模型 的 验证 和 最 优 通用 树 的 发 现 嵌 在 了 算法 中 。 它 首先 生成 一 棵 
非常 复杂 的 树 ， 再 根据 交叉 验证 和 测试 集 验证 的 结果 对 树 进行 剪 枝 ， 从 而 得 到 最 优 通用 树 。 
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2.6 决策 树 的 评价 标准 

对 于 一 个 决策 树 算法 ， 可 以 用 以 下 一 些 性 能 或 指标 进行 评价 。 

1. 正确 性 

评价 一 棵 决策 树 最 首要 、 最 基本 的 标准 就 是 分 类 正确 性 。 只 有 保证 较 高 的 分 类 正确 性 , 才能 
评价 决策 树 的 其 他 性 能 。 

2. 过 学 习 


在 决策 树 的 学 习 过 程 中 , 可 能 会 得 到 若干 棵 和 训练 实例 集 相 匹 配 的 决策 树 ,必须 在 它们 当中 
选择 应 用 于 实测 样本 。 而 如 果 有 过 多 的 决策 树 和 训练 实例 集 相 匹 配 ,那么 模型 的 泛 化 能 力 ( 预测 
准确 度 ) 将 很 差 ， 这 种 情况 称 为 “过 学 习 ”。 

3. 有 效 性 


估计 一 棵 决策 树 在 测试 实例 集合 上 的 性 能 是 通过 比较 它 在 测试 实例 集合 上 实际 测试 结果 来 
完成 。 但 是 这 种 方法 等 价 于 在 测试 实例 集合 上 训练 决策 树 ,， 这 在 大 多 数 情 况 下 都 是 不 现实 的 。 所 
以 一 般 不 采用 这 种 方法 , 而 是 采取 用 训练 实例 集 本 身 来 估计 训练 算法 的 有 效 性 。 一 种 最 简便 的 方 
法 是 用 训练 实例 集合 的 一 部 分 ( 例如 2/3 的 训练 实例 ) 对 决策 树 进行 训练 ， 而 用 另外 一 部 分 ( 另 
外 的 13 的 训练 实例 ) 检测 决策 树 的 有 效 性 。 但 是 这 样 将 减少 训练 实例 集合 的 数目 而 增 大 过 学 习 
的 可 能 性 , 特别 是 当 训练 实例 的 数目 较 少时 更 会 如 此 。 所 以 一 般 是 利用 下 面 的 交叉 有 效 性 和 余 一 
有 效 性 来 评价 一 个 决策 树 学 习 系 统 的 有 效 性 。 

4. 交叉 有 效 性 


在 这 一 方法 中 , 将 训练 实例 集 了 分 为 互 不 相交 并 且 大 小 相等 的 大 个 子 集 ,Ts,…, 74, 对 于 任 
意 子 集 五 ， 用 了 -五 训练 决策 树 ， 之 后 用 五 对 生成 的 决策 树 进行 测试 ， 得 到 错误 率 w， 然 后 估计 


整个 算 法 的 钳 误 率 e= 直 守 s ， 可 以 看 出 随 着 的 增加 ， 所 生成 的 树 的 数目 随 之 增加 ， 因 此 算法 
的 复杂 度 也 会 变 大 。 

5. 余 一 有 效 性 

这 种 有 效 性 的 度量 与 交叉 有 效 性 类 似 , 不 同 之 处 在 于 将 每 一 个 的 大 小 定 为 1。 假设 |T|=n， 
则 估计 获 个 算法 的 错误 率 。= 革 邯 a。。 很 明显 这 种 有 效 性 算法 的 复杂 度 很 高 ， 但 是 它 的 准确 度 也 
很 高 。 

6. 复杂 度 


决策 树 的 复杂 程度 也 是 度量 决策 树 学 习 效果 的 一 个 很 重要 的 标准 , 一 般 有 以 下 三 种 评价 标准 : 
(1 ) 最 优 绪 盖 问 题 (MCV )， 即 生成 最 少数 目 叶 节点 的 决策 树 。 
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(2 ) 最 简 公式 问题 ( MCOMP )， 即 生成 每 个 叶 节 点 深度 最 小 的 决策 树 。 
(3 ) 最 优 学 习 问 题 (OPL )， 即 生成 的 叶子 最 少 并 且 每 个 叶子 深度 最 小 的 决策 树 。 其 中 ， 叶 
节点 深度 是 指 叶 节点 相距 根 节点 的 层 数 。 


2.7 ”决策 树 的 剪 枝 及 优化 


在 决策 树 创建 时 ， 由 于 数据 中 的 噪声 和 离 群 点 ,许多 分 支 反 映 的 是 训练 数据 中 的 异常 。 对 于 
这 种 代表 异常 的 分 支 可 以 通过 前 村 的 方法 去 除 。 

一 般 来 说 ,， 如果 建立 的 决策 树 构造 过 于 复杂 ， 则 决策 树 是 难以 理解 的 ， 对 应 决策 树 的 知识 规 
则 出 现 元 余 , 将 导致 难以 应 用 。 另 外 ， 当 决策 树 越 小 ， 则 存储 这 棵 树 所 要 花费 的 代价 也 越 小 ， 因 
此 建立 有 效 的 决策 树 , 不 仅 需要 考虑 分 类 的 准确 性 , 而且 需 要 考虑 决策 树 的 复杂 程度 ， 即 建立 的 
决策 树 ， 在 保证 具有 一 定 的 分 类 正确 率 的 条 件 下 ， 越 简化 越 好 。 

最 常用 的 决策 树 简化 方法 就 是 剪 校 。 剪 校 的 原则 包括 : 四 奥 卡 姆 剃刀 原则 ， 即 “如 无 必要 ， 
勿 增 实体 "， 即 在 与 观察 相 容 的 情况 下 ， 应 当选 择 最 简单 的 一 个 ; @ 决 策 树 越 小 就 越 容易 理解 ， 
其 存储 与 传输 的 代价 就 越 小 ; @ 决 策 树 越 复 杂 ， 节 点 越 多 , 每 个 节点 包含 的 训练 样本 数 越 少 ， 则 
支持 每 个 节点 的 假设 的 样本 个 数 就 越 少 , 可 能 导致 决策 树 在 测试 集 上 的 分 类 错误 率 越 大 。 但 决策 
树 过 小 也 会 导致 错误 率 越 大 ， 因 此 需要 在 树 的 大 小 与 正确 率 之 间 寻 找 均衡 点 。 

剪 梳 技 术 主 要 包括 预 剪 校 和 后 剪 校 。 


1. 预 剪 枝 


预 剪 枝 就 是 预先 指定 某 一 相关 闭 值 , 决策 树 模型 有 关 参 数 在 达到 该 冰 值 后 停止 树 的 生长 。 预 
剪 枝 方法 不 必 生 成 整 棵 决策 树 ， 且 算法 相对 简单 ， 效 率 和 适合 解决 大 规模 问题 ， 但 预先 指定 
闪 值 不 易 确定 。 较 高 的 阔 值 可 能 导致 过 分 简化 的 树 ， 而 较 低 的 阔 值 可 能 使 得 树 的 简化 太 少 。 一 般 
地 , 多 以 样本 集 应 达到 的 分 类 正确 率 作为 阔 值 进行 预 剪 枝 控制 ,此 时 树 形 的 复杂 度 可 能 通过 随 闭 
值 变化 而 确定 。 更 普遍 的 方法 是 采用 统计 意义 下 的 她 检验、 信息 增益 等 度量 , 评估 每 次 节点 分 裂 
对 系统 性 能 的 增益 。 如 果 节 点 分 裂 的 增益 小 于 预先 给 定 的 阔 值 ， 则 不 对 该 节点 进行 扩展 。 如 果 在 
最 好 的 情况 下 的 扩展 增益 都 小 于 国 值 ， 即 使 有 些 节点 的 样本 不 属于 同一 类 ， 算 法 也 可 以 终止 。 











2. 后 剪 枝 


后 剪 梳 就 是 对 已 生成 (建立 ) 的 决策 树 以 一 定 的 标准 进行 剪 枝 ， 使 决策 树 能 简化 并 具有 一 定 
的 分 类 正确 率 。 

决策 树 后 剪 枝 算法 , 就 是 针对 未 经 前 校 的 决策 树 , 应 用 算法 将 决策 树 的 基 一 个 或 几 个 子 树 删 
除 , 得 到 简化 的 决策 树 ， 对 多 种 不 同 剪 枝 结果 所 得 到 的 简化 决策 树 进行 评价 ， 找 出 最 好 的 剪 枝 形 
式 以 确定 最 终 的 决策 树 。 其 中 , 剪 枝 过 程 删除 的 子 树 可 用 叶 节 点 代替 ， 这 个 叶 节 点 所 属 的 类 用 这 
棵 子 树 中 大 多 数 训练 实例 所 属 的 类 来 代替 。 

后 剪 枝 算法 有 自 上 而 下 和 自 下 而 上 两 种 剪 枝 策略 。 自 下 而 上 的 算法 首先 从 底层 的 内 节点 开始 
剪 枝 ， 剪 去 满足 一 定 条 件 的 节点 , 在 生成 的 新 决策 树 上 递归 调用 这 个 算法 , 直到 没有 可 以 剪 枝 的 
节点 为 止 。 自 上 而 下 的 算法 是 从 根 节点 开始 向 下 逐个 考虑 节点 的 剪 枝 问题 ,只 要 节点 满足 剪 枝 的 
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条 件 就 进行 剪 枝 。 
一 般 的 后 剪 枝 的 方法 步 又 如 下 。 
设 五 为 原始 树 ，T 是 由 五 中 一 个 或 多 个 的 子 树 被 时节 点 所 代 蔡 得 到 的 剪 枝 树 。 
@ 第 ;次 剪 枝 评价 ; 若 第 ;次 的 原始 树 是 TT,72,…, Ti 分 别 是 对 的 各 种 可 能 前 梳 结 果 ， 
可 用 以 下 评价 标准 选 出 一 种 最 好 的 剪 枝 形式 ， 妈 
M 
” CC 
式 中 : 是 剪 枝 树 分 类 错误 率 增加 数 ， 是 样本 总 数 ，Z(9) 是 剪 枝 树 被 去 掉 的 叶 节点 数 。 
@ 对 各 次 得 到 的 前 枝 Ti,TP ,到 用 相同 的 样本 测试 其 分 类 的 错误 率 ， 错 误 率 最 小 的 为 最 
优 的 剪 枝 决策 树 。 
作为 选择 ,对 于 组 合 方法 。 预 剪 枝 和 后 剪 枝 可 以 交叉 使 用 。 后 剪 枝 所 需 的 计算 要 比 预 剪 枝 的 
多 ， 但 通常 产生 更 可 靠 的 树 ， 但 没有 一 种 剪 枝 方法 优 于 其 他 所 有 方法 。 


2.8 基于 MATLAB 的 决策 树 分 析 


例 2.1 表 2.1 是 有 关 天 气 的 数据 样本 集合 .每 个 样本 有 4 个 属性 变量 :Outlook Temperature、 
Humidity 和 Windy。 样 本 集 分 为 两 类 , 即 P 和 N, 分 别 表 示 正 例 和 反例 。 利 用 ID3 算法 求解 其 决 
策 规则 。 








表 2.1 天 气 样本 数据 


同人 | oom EE 























15 Overcast Cool Normal Not 





16 Overcast Cool Normal Medium 





17 Rain Mild Normal Not 


7 Rain Mild High Medium N 
8 Rain Hort Normal Not P 
9 Rain Cool Normal Medium N 
10 Rain Hot Normal Very N 
11 Sunny Cool Normal Very 中 
12 Sunny Cool Normal Medium B 
13 Overcast Mild High Not N 
14 Overcast Mild High Medium N 
- 
P 
N 
N 
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ET 



























i 

20 Overcast P 
21 Sunny es 
22 | Sunny i i Medium Pp 
23 Sunny Nort P 
Rain i ig| Very N 





解 : 
根据 ID3 算法 原理 ， 可 进行 编程 计算 ， 求 出 其 决策 规则 。 


>>sample={'outlook' 'temperature' 'humidity' "windy' "Nan' 


"overcast' 'hot' 'high' 'not' 'N';'overcast' 'hot' 'high' 'very' 'N';'overcast' 'hot' 
"high' 'medium' 'N'7'sunny' "hot' "high' "not' '‘'P';'sunny' 'hot' 'high' 'medium' 
Prain mila high nobr Naion mild” "high” medium "N's "rain’ hot 
"normal' 'not' 'P';'rain' 'cool' 'normal' 'medium' 'N';'rain’' 'hot' 'normal' 'very' 
'N';'sunny' 'cool' 'normal' 'Very' 'P';'sunny' 'cool' 'normal' 'medium' 'P';'overcast' 
"mild' 'high' 'not' 'N';'overcast' 'mild' 'high' "medium' 'N';'overcast' 'cool' 
"normal' 'not' 'P';'overcast' 'cool' 'normal' 'medium' 'P';'rain' 'mild' 'normal' 'not' 
'N';'rain’ "mild' "normal' "medium' 'N';'overcast' ‘mild' "normal' "medium' 
'P';"'overcast' 'mild' 'normal' 'very' 'P';'sunny' "mild' 'high' "very' 'P'7 "sunny' 


"mild' 'high' 'medium' 'P';'sunny' 'hot' 'normal' 'not' 'P'7 "rain' 'mild' 'high' 'very' 


2 
rule=mytree_decisionID3 (sample) ; %ID 算 法 函数 ， 限 于 篇 幅 ， 在 此 不 再 列 出 

求 得 决策 规则 如 下 。 
>>rule={1 Xx3 cell} {1 x5 cell}{l1 XS5 cell} {1x5 cell} {1 XxX5 cell} {1 Xx7 cell} {1 XxX7 cell}; 
>>rule{1}= 'outlook' "sunny'" i te 
>>rule{2}= 'outlook' "overcast'" "humidity" "high'" A 
>>rule{3}="'outlook"' "overcast' 'humidity’ ‘normal’' a 
>>rule{4}="'outlook"' "rain' "temperature WCGOGE NE 
>>rule{5}="'outlook"' hy 'temperature' mild’' 让 
>> rule{6}='out1look'" 'rain''temperature' 'hot''windy" not" 本 
>> rule{7}="'outlook' 'rain''temperature' 'hot"''windy" "Very' 3 


例 2.2 现在 高 校规 模 不 断 扩大 ， 学 后 数量 起 玉 越 多， 随 着 社会 的 发 展 ， 影 响 学 生 学 习 成 绩 
的 因素 越 来 越 多 ,特别 是 高 职 院 校 的 学 生 ， 他 们 的 学 习 基础 比较 差 ee. 影响 学 生 
学 习 成 绩 的 因素 也 较 多 ， 学 生 管 理工 作 的 难度 就 大 ， 因 此 对 学 生成 绩 的 影响 因素 分 析 尤为 
对 学 生日 常 行为 进行 分 析 ， 从 大 星 数 据 在 在 的 关系 规则 中 研究 学 生 行为 ， 从 这 些 行为 预测 学 4 
学 习 成 绩 的 发 展 趋势 ， 从 而 使 教师 对 学 生 管理 工作 有 的 放 矢 ， 有 针对 性 地 管理 好 学 生日 常 行为 ， 












































渡 
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从 而 提高 学 生 的 学 习 效果 就 显得 非常 重要 。 
表 2.2 为 训练 数据 集 ， 表 中 的 决策 属性 都 为 连续 属 值 ， 所 以 应 对 其 进行 离散 化 处 理 ， 使 其 适合 

使 用 决策 树 方法 。 离 散 化 处 理 结果 为 旷课 时 数 : A 表示 入 5，B 表示 入 20，C 表示 > 20。 消 费 金额 : 

A 表示 入 800，B 表示 入 15300，C 表示 > 1500。 总 评 成 绩 ， A 表示 良好 ，B 表示 一 般 ，C 表示 较 差 。 











表 2.2 训练 数据 集 
性 别 旷课 时 数 消费 金额 总 评 成 绩 


女 A 

















| 


蔬 


由 


OO 吧 zolglOIlz|g 


准 | 半 | 对 
olol>|>|Iols|l>|IuIolswliwliol> 
slol>|>|>|>|>|>|I0|>|>|0o|lu|s 








| | 


解 : 

>>x={ "性别 ' "旷课 时 数 ' "是 否 贷款 ' ' 消 费 金额 ''Nan' 

A BA BA CC 
A RA RA 2 C7 Ce 
A A A BN A 
eR A Aa 
nC CC BY NCH 

>>rule=mytree decisionID3 (x); 


求 得 决策 规则 为 : 


>> rule{1} = "了 旷课 时 数 ' "性别 ' ' 田 ， "A 
>> rule{2} = "旷课 时 数 ' By ' 是 否 贷 款 ' Se -A 
>> rule{3} = "旷课 时 数 ' "By ' 是 否 贷 款 ' pe 2 
>> rule{4} = "旷课 时 数 ' es ' 是 否 贷 款 ' 0 he 
>> rule{5} = "旷课 时 数 ' dd ' 是 否 贷 款 ' 是 i 
>> rule{6} = "了 旷课 时 数 ' 近 iE 天 | esa "消费 金额 ' EA A 
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>> rule{7} = "旷课 时 数 ' 加 "性 别 " i ' 消 费 金额 ' 'B' 'B' 


此 例 由 于 训练 集 的 样本 数 较 少 ， 所 以 决策 规则 有 可 能 有 所 欠缺 。 

例 2.3 ”以 log(WECso) 作 为 活性 高 低 的 界限 , 测定 了 26 个 含 硫 芳 香 族 化 合 物 对 发 光 菌 的 毒性 
数据 。 分 别 计算 了 这 些 化 合 物 的 lgKow、Hammett 电荷 效应 常数 o 并 测定 了 水 解 速度 常数 k， 试 
根据 活性 类 别 (两 类 ) 及 变量 lgKow、o 和 lgk 所 取 的 数据 ， 具 体 数据 见 表 2.3， 对 三 个 未 知 活性 
同系 物 的 活性 进行 判别 。 








表 2.3 26 个 化 合 物 的 结构 参数 与 判别 分 析 结 果 


化 合 物 编号 与 类 别 Ig(1/ECso) lgKow pK 
1 0.93 2.30 1.76 
区 i 3.61 2.43 
六 1.03 3.81 2.31 
4 1.12 3.01 1.98 
5 1.13 4.32 2.20 
6 第 I 类 1.18 0.98 1.30 

( 低 活 性 ) 1.32 2.30 2.05 

1.37 0.98 1.09 

9 1.41 4.32 Zi 
10 1.43 1.89 7 
11 1.45 2.29 1.48 
机 1.51 3.00 1.40 
13 1.51 0.95 0.57 
14 1.66 27 1.25 
15 1.67 0.66 0.59 
16 下列 0.95 0.49 
17 1.72 2.27 22 
18 第 [类 1.70 3.00 1.29 
19 | (高 活性 ) 1.87 3.00 1.10 
20 1.93 3.01 1.73 
21 2.19 2.04 1.76 
22 2.20 1.69 1.02 
23 2 2.03 1.23 
24 ey 2.01 0.61 
25 2.56 0.66 0.57 
26 2.65 0.58 二 和 
2 1.33 2.29 Bp 
28 未 知 1.72 3.35 1.46 
29 1.55 3.00 二 到 
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解 : 

在 MATLAB 中 ， 自 带 有 决策 树 算 函 数 ， 本 例 用 此 法 进行 计算 ， 此 时 应 注意 样本 数据 为 数值 矩 
阵 。 有 关 此 函数 的 用 法 ， 请 查阅 该 函数 的 使 用 说 明 。 
和 
T7172 70 07032019 2 20R252 2 2 2 6 2 65 





L280:81 0.81 1.5L 1.04 1-.28 1.28 23 1.04 1-51 0-81 1.04 1.48 1-.48 1.71 1.48 
Te46 1.04 171 1.S51 2060 1:51L 1.59 2=-20 1-711 250607 


2 So S300 A BU yy 
2.27 .300 32500 350L 2504 1-69 2a03 2-0 0.66 0-58s 
E0000 2 1 UA LAD STI 
L220 LO I TS L102 1 23°05061 055 Dols 
Eas ls sso bh es SH WE a lo Mh DO Bo DA BE We 2 1 
>>t=treefit (training, group); 
>>5ample=[L .330.01 .20529 L717 12 L593.35 LONLSSS Lo7E S00 LE 
>>result=treeval (t, sample); 


求 得 结果 为 : result=1 2 1 


例 2.4 ”用 C4.5 算 法 对 例 2.1 中 的 实例 进行 分 类 分 析 。 
解 : 
根据 C4.5 算 法 的 原理 ， 对 其 进行 编程 计算 ， 求 出 决策 规则 。 
>> rule=mytree decisionc4 5(sample); %C4.5 算 法 计算 函数 ,限于 篇 幅 在 此 不 再 列 出 
得 到 以 下 的 决策 规则 : 
>>rule={1 Xx3 cell} {1 XxX5 cell}{l1Xx5 cell} {1x5 cell} {1X5 cell} {1 Xx7 cell} {1xX7 cell}; 


>> rule{1}= "outlook' "sunny'" 下 是 

>> rule{2}= "outlook' "overcast' ‘'humidity' "high' 'N' 

>> rule{3}= 'outlook'" "overcast' ‘'humidity' normal''Pp' 

>> rule{4}= "outlook' "rain’ "temperature'" ooo 本 

>> rule{5}= "outlook' i 'temperature' A 丙 卫 有 

>> rule{6}= "outlook' "rain' "temperature'" hot” "windy' 'not' bh 
>> rule{7}= 'outlook"' 'rain' 'temperature' "hot' "windy' 'very' 'N' 


例 2.5 利用 CART 算 法 对 表 2.4 中 的 数据 进行 分 类 分 析 。 
表 2.4 身高 样本 数据 
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续 表 
编 号 性 别 身高 (m) 类 别 
4 女 1.6 中 
5 委 1.6 矮 
6 男 1.6 中 
女 1.6 矮 
8 男 1.6 矮 
9 男 1.6 高 
10 男 1.6 高 
11 女 1.6 中 
12 男 1.6 中 
13 女 1.6 中 
14 女 1.6 中 
15 女 1.75 中 











解 : 
首先 对 数据 属性 进行 处 理 。 设 其 被 划分 6 个 子 区 间 : (0,1.6)， [1.6,1.7), [1.7,1.8), [1.8,1.9)， 
[1.9,2.0)，[2.0,%)。 利 用 这 些 区 间 可 得 到 潜在 的 分 裂 值 1.6、1.7、1.8、1.9、2.0。 然 后 根据 CART 


算法 的 原理 ， 从 这 6 个 可 能 的 属性 值 中 选择 一 个 分 裂 点 。 以 下 为 CART 算 法 的 程序 , 限于 篇 幅 , 不 
再 详细 列 出 。 


>> sample={ "性 别 ' ' 身 高 ' 'Nan';' 女 ' 1.60 ' 矮 '; ' 男 ' 2.00 ' 高 '; ' 女 ' 1.90 ' 中 '; 

:0 RE70OR 六 和 IES85 ES60 有 和 交 

:0 2200 0 200 00H 

5 
>>rule=mytree decisionCART (sample, [0 1],0.9); 

根据 结果 ， 可 知 : 不 能 形成 决策 规则 ， 请 增加 属性 或 降低 正确 率 。 

从 题 意 中 明显 可 看 出 ， 此 例 的 属性 太 少 。 如 果 将 正确 率 降 为 0.8， 则 可 以 形成 决策 规则 : 

rule{1} = ' 身 高 ' el 8 ' 矮 ' 

例 2.6 在 建立 有 效 的 决策 树 时 ， 不 仅 需 要 考虑 分 类 的 准确 性 ， 而 且 需 要 考虑 决策 树 的 复杂 
程度 ， 即 建立 的 决策 树 ,在 保证 具有 一 定 的 分 类 正确 率 条 件 下 ， 越 简化 越 好 。 最 常用 的 决策 树 简 
化 方法 就 是 剪 枝 。 下 面 利用 后 剪 枝 技术 对 例 2.1 中 形成 的 决策 树 进 行 剪 枝 ， 其 中 所 用 的 测试 样本 
集 见 表 2.5。 














表 2.5 测试 样本 数据 


en moy | Wr | 于 


1 Overcast Heot Normal Not FP 
2 Overcast Mild High Very N 
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续 表 
属 性 类 别 
3 Overcast Normal Medium P 
4 Overcast High Not P 
5 Sunny Normal Medium P 
6 Sunny High Not Pp 
7 Sunny High Medium N 
8 Net p 
9 ig Medium N 
10 Hort N 
11 Mild N 
12 Cool i Medium N 
解 : 
根据 决策 树 各 种 算法 的 原理 ， 再 结合 决策 树 剪 枝 方法 ， 可 进行 编程 计算 , 限于 篇 幅 , 不 再 详 
细 列 出 此 程序 。 此 例 中 的 程序 较为 完整 , 既 可 以 处 理 数值 属性 ,也 可 以 处 理 其 他 属性 以 及 具有 混 


合 属性 训练 样本 集 。 

>>train_sample={f'outlook' 'temperature' 'humidity' "windy' 'Nan' 

"overcast' 'hot' 'high' "not' 'N'; 'overcast' 'hot' 'high' 'very' 'N';'overcast' 
"hot' 'high' 'medium' 'N' 

vsnnny™ hot "high™ nec Psinny "hot” bigb "medivm "purr"rain® iax 
paghpre nokcweNr 

raan. "mild” high” meqium TaionhoE "normab no, “preMraln, cool 
'normal' "medium' 'N' 

'rain' 'hot' 'normal' 'very' 'N';'sunny' 'cool' 'normal' 'very' 'P';'sunny' 'cool 
'normal' "medium' 'P"' 

"overcast' 'mild' "high' "not' 'N';'overcast' 'mild' "high' 'medium' 
JRYOVePcaSsE7 "cool” normal” not” PE: 

"overcast' 'cool' 'normal' "medium' 'P';'rain' "mild' 'normal' "not' 'N';'rain’' 
"mild' "normal' "medium' 'N" 

"overcast' 'mild' "normal' "medium' 'P'7; "overcast' 'mild' 'normal' "Very' 

Np enny" "mild igh "very rp" 

'sunny' 'mild' 'high' 'medium' 'P';'sunny' 'hot' 'normal' 'not' 'P';'rain’' "mild' 
"high' 'very' 'N'}; 

>>test={"'outlook' 'temperature' "humidity' "windy' 'Nan' 

"overcast' "hot' "normal' "not' 'P';'overcast' 'Mild' 'high' 'very' 
'N';'overcast' "cool' 'normal' "medium' "P'" 


"overcast' "hot' "high' "not' "P'7 "sunny' "hot' 'normal' "medium' "P'7 "sunny' 
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"mot oh “not Pp 

"sunny' "hot" "high medium’ "NSunny' "Mild" 'normal"’ "not" "Pp';'"rain' "cool’ 
"high' "medium' 'N' 

"rain' "hot' 'normal' 'Very' 'N';'rain' "Mild' "high' "Very' 'N';'rain' "cool" 


"high' "medium' 'N'}; 


>>rule=mytree decisionID3 1(train sample,test); %ID3 算 法 函数 ， 包 括 剪 枝 处 理 
>> rule={1x3 cell} {1x5 cell} {1x5 cell} {1x3 cell} ”% 得 到 决策 规则 

>>rule{1}= "outlook'" "sunny' ED 

>>rule{2}= "outlook'" "overcast'" "humidity'" "high'" 、 本 

>>rule{3}= 'outlook' "overcast'" "humidity" normal WPY 
>>rule{4}= "outlook' "rain' 人 
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3.1 ”人工 神经 网 络 概述 


人 工 神经 网 络 ( Artificial Neural Network，ANN ) 有 时 简称 为 神经 网 络 ， 是 在 现代 生物 学 研究 
人 脑 组 织 所 取得 成 果 的 基础 上 提出 的 , 它 利 用 大 量 简单 的 处 理 单元 广泛 连接 组 成 的 复杂 网 络 , 来 模 
拟人 类 大 脑 的 神经 网 络 结构 和 行为 。 它 的 研究 成 果 显 示 了 人 工 神经 网 络 具有 人 脑 功能 的 基本 物质 特 
征 一 一 学 习 、 记 忆 、 概 括 、 归 纳 和 抽取 等 ,从 而 解决 了 人 工 智能 研究 中 的 某 些 局 限 性 。 它 不 同 于 以 
前 人 工 智能 领域 中 普遍 采用 的 基于 逻辑 和 符号 处 理 的 理论 和 方法 ， 而 是 开辟 了 狐 新 的 途径 。 

神经 网 络 的 产生 是 从 生物 学 上 获得 的 灵感 , 它 将 实现 模拟 生物 神经 元 的 某 些 基本 功能 的 元 件 
组 织 起 来 ， 而 组 织 方式 或 是 按 人 脑 组 织 方式 ， 或 是 根本 不 按 人 脑 组 织 方式 ， 不 管 其 是 高 度 相似 ， 
还 是 简单 模仿 ， 神 经 网 络 仍 能 显示 其 惊人 的 与 人 脑 相近 的 特性 。 例 如 ， 它 能 学 习 专 门 知识 ， 从 先 
前 已 有 的 实例 中 概括 出 新 的 例子 。 
随 着 神经 网 络 的 大 量 开创 性 应 用 , 可 以 发 现 , 不 管 网 络 的 组 织 形式 如 何 , 它们 均 有 以 下 三 个 
共同 的 特性 。 

(1 ) 学 习 。 神 经 网 络 具有 对 周围 环境 自学 习 、 自 适应 的 功能 。 这 种 学 习 机 制 基 于 网 络 的 组 
织 形式 能 适应 各 种 学 习 算 法 , 而 学 习 算 法 是 指 网 络 能 根据 训练 实例 来 决定 自身 的 行为 ， 当 出 现 一 
组 输入 信息 (或 附 有 所 需 的 输出 结果 ) 时 ,它们 能 不 断 调整 ， 产 生 一 系列 一 致 的 结果 ， 狂 如 人 们 
智能 活动 “习惯 成 自然 ”一 样 ， 反 映 出 网 络 的 学 习性 能 。 

(2 ) 概括 。 一 旦 训练 后 ， 神 经 网 络 的 响应 能 在 某 种 程度 上 对 外 界 输出 信息 的 少量 丢失 或 神 
经 网 络 组 织 的 局 部 缺损 不 再 很 敏感 。 这 种 机 制 与 大 脑 每 日 有 大 量 神经 网 络 正常 死亡 但 并 不 影响 大 
脑 的 功能 , 或 者 大 脑 局 部 损伤 会 引起 某 些 功能 的 逐渐 衰退 , 但 不 是 功能 完全 丧失 一 样 ,反映 了 神 
经 网 络 的 鲁 棒 性 ， 即 具有 容错 能 力 。 

(3 ) 抽取 。 神 经 网 络 还 有 一 种 抽取 外 界 输入 信息 特征 的 特殊 功能 ， 可 以 从 不 完善 的 数据 和 
图 形 进行 学 习 和 做 出 决定 。 一 旦 训练 完成 ， 就 能 从 给 定 的 输入 模式 快速 计算 出 结果 。 如 对 它 进行 
一 张 人 像 的 一 系列 不 完整 的 照片 识别 训练 之 后 , 再 任 选 一 张 缺损 的 照片 让 神经 网 络 识别 , 网 络 将 
会 做 出 一 个 完整 形式 的 人 像 照 片 的 响应 。 在 某 种 意义 上 可 以 说 它 能 “创造 "出 以 前 从 未 见 到 的 某 些 

人 工 神经 网 络 的 这 些 基 本 特征 反映 了 它 能 较 之 其 他 人 工 智能 理论 和 方法 更 好 地 解决 这 方面 的 
任务 。 同 时 , 也 可 以 看 出 它 实现 的 是 右 半 脑 直觉 形象 思维 的 特性 ， 而 传统 人 工 智能 理论 和 方法 实现 
左 半 脑 逻辑 思维 的 特性 , 它们 有 着 互补 的 作用 ,而 不 是 简单 取代 的 关系 。 正 是 具有 这 些 特点 ， 人 工 
神经 网 络 在 人 工 智能 、 自 动 控制 、 计 算 机 科学 、 信 息 处 理 、 模 式 识别 等 领域 得 到 了 广泛 的 应 用 。 


3.2 ”人 工 神经 网 络 的 基本 模型 


人 工 神经 网 络 系统 是 大 脑 生物 结构 的 数学 模型 , 由 大 量 功 能 简单 而 具有 自 适应 能 力 的 信息 处 
理 单元 即 人 工 神经 元 按照 大 规模 并 行 的 方式 ， 通 过 拓扑 结构 连接 而 成 。 


3.2.1 神经 元 


人 工 神经 元 是 对 生物 神经 元 的 模拟 。 在 生物 神经 元 上 , 来 自 轴 突 的 输入 信号 神经 元 终结 于 突 
触 上 。 信 息 是 沿 着 树 突 传输 并 发 送 到 另 一 个 神经 元 ; 对 于 人 工 神 经 元 , 这 种 信号 传输 由 输入 信号 
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x、 突 触 权重 w、 内 部 闷 值 和 输出 信号 y 来 模拟 ,如 图 3.1 所 示 。 


电信 号 8 
a 
轴 突 
i | 
OO-OA 神经 传送 元 。 .… 
ee@ @ zw 一 


生物 神经 元 人 工 神经 元 
图 3.1 生物 和 人 工 神 经 元 结构 示意 图 


3.2.2 ”传递 函数 
在 人 工 神经 元 系统 中 ,其 输出 是 通过 传递 函数 有 ) 来 完成 的 。 传 递 函 数 的 作用 是 控制 输入 对 
输出 的 激活 作用 ， 把 可 能 的 无 限 域 变换 到 给 定 范围 的 输出 ， 对 输入 、 输 出 进行 函数 转换 ， 以 模拟 
生物 神经 元 线性 或 非 线性 转移 特性 。 
由 图 3.1 可 见 ， 简 单 神经 元 主要 由 权 值 、 阔 值 和 帮 * ) 的 形式 定义 ， 其 数学 表达 式 如 下 : 
y=/(S we -6) 


可 以 选择 传递 函数 为 所 希望 的 函数 形式 ， 如 平方 根 、 乘 积 、log、e* 等 ， 表 3.1 为 一 些 常用 的 
传递 函数 。 除 线性 传递 函数 外 ， 其 他 变换 给 出 的 均 是 累积 信号 的 非 线 性 变换 。 因 此 ， 人 工 神经 网 
络 特别 适合 于 解决 非 线 性 问题 。 


表 3.1 神经 网 络 传递 函数 














类 型 函数 
- 、 四 lx 三 3) 
阔 值 逻辑 〈 二 值 ? ya- 
_ 加 l(x 宇 5s) 
阅 值 逻辑 (两极) a 多 
线性 传递 函数 EE 
l(x 宇 5s) 
线性 阅 值 函 数 2 
c 其 仙 
Sigmoid 函数 /9= 和 
双 曲 线 一 正切 函数 /() -SE 
人 +e 
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3.2.3 ”人 工 神 经 网 络 的 分 类 
人 工 神经 网 络 模 型 可 以 有 多 种 形式 , 它 取 决 于 网 络 的 拓扑 结构 、 神 经 元 传递 函数 、 学 习 算 法 
和 系统 特点 。 一 般 可 根据 以 下 方式 进行 分 类 。 
。 ” 按 结构 方式 分 类 ， 有 前 馈 网 络 和 反馈 网 络 ， 如 BP 前 馈 网 络 和 反馈 Hopfield 网 络 。 
。 ” 按 状 态 方式 分 类 ， 有 离散 型 网 络 和 连续 型 网 络 ， 如 Hopfield 离散 型 网 络 和 Hopfield 
连续 型 网 络 。 
。 ” 按 学 习 方式 分 类 ， 有 监督 学 习 网 络 和 无 监督 学 习 网 络 ， 如 BP、RBF 等 有 学 习 监 督 
网 络 和 Kohonet 无 监督 学 习 网 络 。 


3.3 ”BP 神经 网 络 


1985 年 ，Rumelhart 提出 的 Error back propagation 算法 ( 简称 BP 算法 )， 系 统 地 解决 了 多 层 
网 络 中 隐 单 元 层 连 接 权 的 学 习 问 题 。 目 前 BP 模型 已 成 为 人 工 神经 网 络 的 重要 模型 之 一 ， 并 得 到 
了 广泛 的 应 用 。 


3.3.1 ”BP 人 工 神经 网 络 结构 


BP 人 工 神经 网 络 由 输入 层 、 隐 含 层 和 输出 层 三 层 组 成 ， 其 核心 是 通过 一 边 向 后 传递 误差 ， 
一 边 修正 误差 的 方法 来 不 断 调 节 网 络 参数 ( 权 、 阔 值 )， 以 实现 或 逼近 所 币 望 的 输入 、 输 出 映射 
关系 。BP 人 工 神经 网 络 结构 如 图 3.2 所 示 。 




















输入 层 隐 含 层 ”输出 层 





图 3.2 BP 人 工 神 经 网 络 结构 
3.3.2 ”BP 人 工 神经 网 络 的 学 习 算 法 


BP 人 工 神经 网 络 的 学 习 算法 ， 包 含 以 下 6 步 : 

(1 ) 初始 化 。 为 了 加 快 网 络 的 学 习 效率 ， 一 般 需 对 原始 数据 的 输入 、 输 出 样本 进行 规范 化 
处 理 ; 给 权 值 及 国 值 赋予 ( -11 ) 区 间 的 随机 值 。 

(2 ) 进入 循环 。 计 算 网 络 的 输入 和 输出 值 。 

隐 含 层 各 节点 的 输入 、 输 出 分 别 为 


ea 
和 = ap-0 以 = 一 一 ， 广 1,2,…p( 隐 含 层 单元 数 ) 
和 1 l+e 7” 
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输出 层 各 节点 的 输入 、 输 出 分 别 为 
上 = 守 bry。 = 一 1.2,…,q (输出 层 神经 元 数 ) 


7 总 1+e 
(3 ) 误差 道 传播 。 各 连接 层 及 阔 值 的 调整 ， 按 梯度 下 降 法 的 原则 进行 。 
设 网 络 的 计算 输出 为 ， 则 网 络 的 希望 输出 六 与 计算 输出 cx 的 偏差 的 均 方 值 Ex 
站 





Ei = 


计算 输出 层 各 节点 的 误差 qr 
dt =(y* -ct)ct -ot), 1,2,.…,q 





隐 含 层 各 节点 的 误差 太 


1=1 
(4 ) 修正 权 值 、 阔 值 。 用 输出 层 、 隐 含 层 各 节点 的 误差 修正 各 层 的 连接 权 值 及 阔 值 。 
wwr(N+D=w(CN)+ad:eBr 
ji(N+D= 力 (V) 一 cd 
w(N+l)=w, (N)+ Phtar 
O(N+D)=0,(N) -Bh 


本 
太 -Be Ba-t ria 





其 中 : V 为 修正 次 数 。 


以 上 循环 执行 m 次。 
(5 ) 若 网 络 的 全 局 误差 小 于 指定 的 值 ， 则 算法 转 入 第 (6 ) 步 ， 否 则 转 入 第 (2 ) 步 。 
(6) 计算 输出 层 。 


3.4 RBF 神经 网 络 


RBF 网 络 是 20 世纪 80 年 代 提出 的 一 种 人 工 神经 网 络 结构 , 是 具有 单 隐 层 的 前 向 网 络 。 它 不 





仅 可 以 用 来 函数 逼近 ， 也 可 以 进行 预测 。 
3.4.1 RBF 网 络 结构 


RBF 网 络 由 两 层 组 成 ， 第 一 层 为 隐 含 的 径 向 基层 ， 第 二 层 为 输出 线性 层 ， 其 网 络 结构 如 


图 3.3 所 示 。 


输入 层 ” 径 向 基层 ”输出 线性 层 





图 3.3 RBF 网 络 结构 
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从 图 3.3 中 可 看 出 , RBF 网 络 的 输入 层 实现 从 x->RAx) 的 非 线 性 映射 ,输出 层 实 现 从 Ra 一 
的 线性 映射 ， 即 











卫 
Pi = ,wouR(x), 1,2,-…,4 
i=1 





其 中 : 4 是 输出 节点 数 ; wi 为 输出 层 第 个 神经 元 与 隐 含 层 第 j 个 神经 元 之 间 的 调节 权重 。 
从 理论 上 讲 ，RBF 人 工 神经 网 络 可 以 逼近 任何 的 非 线性 函数 。 
RBF 人 工 神经 网 络 中 径 向 基 函 数 是 径 向 对 称 的 ， 最 常用 的 是 高 斯 函数 
R(x)= “| Flos 
其 中 : x 是 m 维 输入 向 量 ; ec 是 第 ;个 基 函 数 的 中 心 ; oi 是 第 i 个 感知 的 变量 ; p 是 感知 单元 的 个 
数 ; |x-c 玉 是 向 量 x-ci 的 范 数 。 


3.4.2 RBF 人 工 神经 网 络 的 学 习 算 法 
RBF 人 工 神 经 网 络 的 学 习 算法 包含 以 下 几 步 。 
(1 ) 初始 化 。 对 连接 权重 w、 各 神经 元 的 中 心 参数 。、 宽 度 向 量 o 等 参数 的 按 一 定 的 方 
式 进 行 初始 化 ， 并 给 定 a ( 调节 系数 ) 和 (学习 因 子 ) 的 取 值 。 
(2 ) 计算 隐 含 层 的 输出 。 利 用 高 斯 函数 计算 隐 含 层 的 输出 。 
(3 ) 计算 输出 层 神经 元 的 输出 。 利 用 下 式 求 出 输出 神经 元 的 输出 
pf Fm,R) 


i=l 


(4) 误差 调整 。 对 各 初始 化 值 ， 根 据 下 列 公式 进行 迭代 计算 ， 以 自 适应 调节 到 最 佳 值 。 


oF 
wij(?) = We Dae-D td) 





oF 
BD +a[cn(t—D-—e,(t—2)] 


Ii 


cn(D=cn(1-D-n 


oF 
On(tD)=o0n(t Dn Mo) 


其 中 :wy(0 为 第 个 输出 神经 元 与 第 ;个 隐 合 层 神经 元 之 间 有 第 1 次 的 挝 代 计算 时 的 调节 权重 
cx 为 第 7 个 隐 合 层 对 应 于 第 :个 输入 神经 元 在 第 1 次 办 代 计算 时 的 中 心 分 量 ; qD 为 与 中 心 oi) 
对 应 的 宽度 ;为 学 习 因子 ; 下 为 RBF 神经 网 络 误差 函数 ， 由 下 式 给 出 
= 六 六 ox-oo 

其 中 ，04 为 第 上 个 输出 神经 元 在 第 7 个 输入 样本 时 的 期 并 给 出 值 ;y4 为 第 个 输出 神经 元 在 第 1 
个 输入 样本 时 的 网 络 答 出 值 。 

(5 ) 按 下 式 计算 网 络 输出 的 均 方 根 误差 RMS 的 值 ， 若 RMS<e， 则 训练 结束 ， 计 算 输 
出 ， 理 则 转 到 第 (2) 步 。 
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3.5 SOM 神经 网 络 
自 组 织 特征 映射 网 络 ( Selforganizing Feature Map ) 也 称 Kohonen 网 络 ， 它 是 一 个 由 全 连接 
的 神经 元 阵列 组 成 的 无 教师 、 自 组 织 、 自 学 习 网 络 。 
3.5.1 SOM 神经 网 络 结 构 

SOM 网 络 一 般 只 包含 一 维 阵列 和 二 维 阵列 ， 典 型 的 二 维 阵列 SOM 神经 网 络 结构 如 图 3.4 
所 示 ， 由 输入 层 和 竞争 层 (或 称 映射 层 ) 组 成 。 输 入 层 神经 单元 数 为 m, 竞争 层 由 axb 个 神经 元 
组 成 的 二 维 平面 阵列 ， 输 入 层 与 竞争 层 各 神经 之 间 实 现 全 连接 。 

(NA 

CEBC 


(大 一 (对 



























图 3.4 二 维 阵列 SOM 神经 网 络 结构 模型 
3.5.2 ”SOM 神经 网 络 学 习 算法 





SOM 神经 网 络 能 够 自动 找 出 输入 数据 之 间 的 类 似 度 ,将 相似 的 输入 在 网 络 上 就 近 配 置 ， 就 
可 以 构成 对 输入 数据 有 选择 地 给 予 反 应 。 其 学 习 算 法 如 下 。 

(1 ) 网 络 初始 化 。 用 随机 数 设 定 输入 层 和 映射 层 之 间 的 初始 值 。 对 m 个 输入 神经 元 到 输出 
神经 元 的 连接 权 值 赋予 较 小 的 权 值 。 选 取 输 出 神经 元 j 个 “邻接 神经 元 ”的 集合 55， 其 中 ，5,(0) 
表示 时 刻 50 的 神经 元 j 的 “邻接 神经 元 ”的 集合 ，5,(D) 表 示 时 刻 上 的 “邻接 神经 元 ”的 集合 ,区 
域 5(D) 随 着 时 间 的 增长 而 不 断 缩 小 。 

(2 ) 输入 向 量 的 输入 。 将 输入 向 量 卫 = (xix2,… wxm) 输 入 给 输入 层 神 经 单元 。 

(3 ) 计算 映射 层 的 权 值 向 量 和 输入 向 量 的 距离 ( 欧式 距离 )。 在 映射 层 ， 按 下 式 计算 各 神 
经 元 的 权 值 向 量 和 输入 向 量 的 欧式 距离 




















改 = 民 - 古 |= SG Dw (DY 





式 中 : wy 为 输入 层 的 i 神经 元 和 映射 层 的 j 神经 元 之 间 的 权 值 。 通 过 计算 得 到 一 个 具有 最 小 距离 
的 神经 元 ， 即 胜出 神经 元 ， 记 为 广 。 
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(4 ) 权 值 的 学 习 。 按 下 式 修正 输出 神经 元 广 及 其 “邻接 神经 元 ”的 权 值 。 
Aw =% (t+D -wD =nD5D) —w()) 
式 中 : 7 为 [0.1] 区 间 内 的 一 个 常数 ， 随 着 时 间 变 化 逐渐 下 降 到 0。 


而 





二 四 
"0=l3kn() =02|! 而 
(5 ) 计算 输出 Or。 按 下 式 计算 输入 
0.=f(min|x -wb 
其 中 : KA*) 一 般 为 0~1 函数 或 者 其 他 非 线性 函数 。 
(6 ) 是 否 达到 预先 设 定 的 要 求 。 如 达到 要 求 则 算法 结束 ; 否则 ,返回 步骤 ( 2 )， 进 入 下 一 


3.6 ”反馈 型 神经 网 络 ( Hopfield ) 


Hopfield 网 络 是 最 典型 的 反馈 网 络 模型 ,是 目前 人 们 研究 最 多 的 模型 之 一 。 它 由 相同 的 神经 
网 络 元 构成 的 单 层 ， 并 且 具 有 学 习 功 能 的 自 联想 网 络 ， 可 以 完成 制约 优化 和 联想 记忆 等 功能 。 


3.6.1 ”Hopfield 网 络 的 拓扑 结构 


Hopfield 网 络 的 拓扑 结构 如 图 3.5， 其 中 第 一 层 仅 是 作为 网 络 的 输入 ， 它 不 是 实际 的 神经 元 ， 
没有 计算 功能 。 第 二 层 是 实际 神经 元 , 执行 对 输入 信息 与 系数 的 乘积 求 累 加 和 ， 并 经 非 线性 函数 
处 理 后 产生 输出 信息 。7 是 一 个 简单 的 阔 值 函数 ， 如 果 神 经 元 的 输出 信息 大 于 阔 值 6， 那么 神经 
元 的 输出 就 取 值 为 1， 小 于 阔 值 9， 则 神经 元 的 输出 就 取 值 为 -1。 





yi(t+1) ya(t+1) yn(t+1) 


图 3.5 Hopfield 网 络 拓扑 结构 
从 图 3.5 中 可 看 出 ，Hopfield 网 络 是 一 种 循环 神经 网 络 ， 由 于 其 输出 端 有 反馈 到 其 输入 端 ， 
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所 以 Hopfield 网 络 在 输入 的 激励 下 ， 会 不 断 产 生 状态 变化 。 当 有 输入 之 后 ， 可 以 求 得 Hopfield 
的 输出 。 这 个 输出 反馈 到 输入 从 而 产生 新 的 输出 ,这 个 反馈 过 程 一 直 进 行 下 去 。 如 果 Hopfield 网 
络 是 一 个 能 收敛 的 稳定 网 络 , 则 这 个 反馈 和 和 迭代 的 计算 过 程 所 产生 的 变化 越 来 越 小 。 一 旦 到 达 了 
稳定 平衡 状态 ， 那 么 Hopfield 网 络 就 会 输出 一 个 稳定 的 恒 值 。 
3.6.2 ”Hopfield 网 络 的 学 习 算 法 

Hopfield 网 络 的 训练 和 分 类 利用 的 是 Hopfield 网 络 的 联想 记忆 功能 。 当 它 做 联想 记忆 时 , 首 
先 通过 一 个 学 习 训练 过 程 确定 网 络 中 的 权重 , 使 所 记忆 的 信息 在 网 络 的 维 超 立 方 体 的 某 一 个 顶 
角 的 能 量 最 小 。 当 网 络 的 权 值 被 确定 之 后 ， 只 要 向 网 络 给 出 输入 向 量 , 即使 这 个 向 量 是 不 完全 或 
部 分 不 正确 的 数据 ， 但 网 络 仍然 产生 所 记忆 的 信息 的 完整 输出 。 

Hopfield 网 络 的 学 习 算法 如 下 。 

(1 ) 确定 参数 。 将 输入 向 量 蕊 即 = [xiayxp,… wxin] 存 入 Hopfield 网 络 中 ， 则 在 网 络 中 第 
订 两 个 节点 间 的 权重 系数 按 下 列 公式 计算 


VN 
Xuxpy izj 
各 了 


六” 


Ww = 
确定 输出 向 量 Y= [ywy2,…yn]"o 
(2 ) 对 等 测 样本 进行 分 类 。 对 于 待 测 样本 ， 通 过 对 Hopfield 网 络 构成 的 联想 存储 器 进行 联 
@ 将 于 中 各 个 分 量 的 xuxz,… ao 分 别 作为 第 一 层 网 络 n 个 节点 的 输入 ， 则 节点 有 相应 的 初 
始 状 态 了 (50),， 即 y(0)=g, 广 1,2,… ,no 
@ 对 于 二 值 神 经 元 ， 计 算 当前 Hopfield 网 络 输出 





VC+D= Dy +x = 
和 1 


p+D)= /U0+D)),FF1,2,n 
式 中 : 5 为 外 部 输入 ; f 是 非 线 性 函数 ， 可 以 选择 阶 跃 函数 ; 6 为 国 值 函 数 。 


-1 Ud+D<0 


LA UDC+D=0 


@ 对 于 一 个 网 络 来 说 ， 稳 定性 是 一 个 重要 的 性 能 指标 。 对 于 离散 的 Hopfield 网 络 ， 其 状 
态 为 KKOD， 如 果 对 于 任何 At> 0， 当 网 络 从 :=0 开始 ， 有 初始 状态 Y(0)， 经 过 有 限时 间 
t， 有 X(t+AD=Y(D)， 则 称 网 络 是 稳定 的 ， 此 时 的 状态 称 为 稳定 状态 。 通 过 网 络 状 态 不 断 
变化 ， 最 后 状态 会 稳定 下 来 ， 最 终 的 状态 是 与 待 测 样本 向 量 开 最 接近 的 训练 样本 。 所 
以 ，Hopfield 网 络 的 最 终 输出 ， 也 就 是 待 测 样本 向 量 联想 的 检索 结果 。 

图 利用 最 终 输 出 与 训练 样本 进行 匹配 ， 找 出 最 相近 的 训练 样本 向 量 ， 其 类 别 即 是 等 测 样本 
类 别 。 所 以 ， 即 使 待 测 样本 并 不 完全 或 部 分 不 正确 ， 也 能 找到 正确 的 结果 。 
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3.7 基于 MATLAB 的 神经 网 络 方法 


人 工 神经 网 络 在 故障 诊断 、 特 征 的 提取 和 预测 、 非 线性 系统 的 自 适应 控制 、 不 能 用 规则 或 公 
式 描述 的 大 量 原始 数据 的 处 理 等 方面 具有 比 经 典 计算 方法 优越 的 性 能 , 且 有 极 大 的 灵活 性 和 自 适 
应 性 。 

在 实际 应 用 中 ， 面 对 一 个 实际 问题 如 要 用 人 工 神 经 网 络 求解 ,首先 应 根据 问题 的 特点 , 确 
定 网 络 模型 ,再 通过 网 络 仿真 分 析 , 分 析 确 定 网 络 是 否 适合 实际 问题 的 特点 。 在 此 过 程 中 ,应 注 
意 以 下 几 个 问题 。 


3.7.1 “信息 表达 方式 

各 种 应 用 领域 的 信息 有 不 同 的 物理 意义 和 表示 方法 , 为 此 要 将 这 些 不 同 物理 意义 和 表示 方法 
的 信息 转化 为 网 络 所 能 表达 并 能 处 理 的 形式 。 不 同 应 用 领域 的 各 种 数据 形式 一 般 为 以 下 几 种 。 

(1 ) 已 知 数据 样本 ; 

(2 ) 已 知 一 些 相互 关系 不 明 的 数据 样本 ; 

(3 ) 输入 一 输出 模式 为 连续 量 、 离 散 量 ; 

(4 ) 具有 平移 、 旋 转 、 伸 缩 等 变化 的 模式 。 
3.7.2 “网络 模型 选择 

也 即 确定 激活 函数 、 连 接 方式 、 各 神经 元 的 相互 作用 等 ， 当 然 也 可 以 针对 问题 的 特点 , 对 原 
始 网 络 模型 进行 变形 、 扩 充 等 处 理 。 
3.7.3 ”网 络 参数 选择 

确定 输入 、 输 出 神经 元 的 数目 、 多 层 网 的 层 数 和 隐 含 层 神经 元 的 数目 等 。 
3.7.4 ”学习 训练 算法 选择 

确定 网 络 学 习 时 的 学 习 规则 及 改进 学 习 规 则 。 在 训练 时 ,还 要 结合 实际 问题 考虑 网 络 的 初始 化 。 
3.7.5 “系统 仿真 的 性 能 对 比 

将 应 用 神经 网 络 解决 的 领域 问题 与 其 他 采用 不 同方 法 的 仿真 系统 的 效果 进行 比较 , 以 检验 方 
法 的 准确 度 和 解决 问题 的 精度 。 

例 2.7 螨虫 分 类 问题 可 概括 叙述 如 下 : 生物 学 家 试图 对 两 种 嵌 虫 ( Af 与 Apf ) 进行 鉴别 
依据 的 资料 是 触角 和 翅膀 的 长 度 ， 已 经 测 得 了 9 只 Af 和 6 只 Apf 的 数据 ， 如 表 3.2 所 示 。 












































表 3.2 样本 数据 集 
触 角 类 别 
1.24 Apf 
1.38 Apf 
1.38 Apf 
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续 表 
触 角 类 别 
1.38 Apf 
1.40 Apf 
1.48 Apf 
1.54 
1.56 
1.36 





根据 以 上 资料 ， 求 解 下 列 问题 。 

(1 ) 根据 如 上 资料 ， 如 何 制 定 一 种 方法 ， 正 确 地 区 分 两 类 虹 虫 。 

(2 ) 对 触角 和 翼 长 分 别 为 (1.24,1.80)、(1.28,1.849 与 (1.40,2.04) 的 三 个 标本 ,用 所 得 到 的 方法 
加 以 识别 。 

(3 ) 设 Af 是 宝贵 的 传粉 益 虫 、Apf 是 某 疾病 的 载体 ， 是 否 应 该 修改 分 类 方法 。 

解 : 

在 MATLAB 中 , 利用 人 工 神经 网 络 解决 各 种 实际 问题 , 一 般 有 两 种 方法 : 一 是 利用 命令 行 ; 
二 是 利用 神经 网 络 图 形 用 户 界面 (GUI )。 

对 于 此 题 ， 利 用 BP 神经 网 络 的 命令 行进 行 求解 : 
>>clear 
pi=Uls24 L277 6 Led 0 lL aL 002 .30 L001 40r Ll IOLA L029 
.5471-8271-5672-08]2 
p2=[1-.1471:8271-1871.9671-20r1-8671:52672-0071-20;2=0071=30r1 96]s 
p=[pl1;p2] ';pr=minmax (p) ;goal=[ones (1, 9), zeros (1, 6) ;zeros (1, 9) ,ones (1,6)]; 
td ds 1 eh DD Dp ed Qe Ne hd) ] 
net=newff (pr, [3,2],{'l0gsig', 'lo0gsig'}); 
net .trainParam.show = 107net.trainParam.lr = 0.05;net.trainParam.goal = le-10; 
net.trainParam.epochs = 50000;net = train(net,p,goal); 
X=[1.24 1.80;1.28 1.84;1.40 2.04]"'; 


y0=sim(net, p); 





y=sim (net, x); $ 实 际 样本 的 分 类 结果 
求 得 结果 如 下 ， 从 结果 可 看 出 ， 实 际 样本 基本 上 属于 第 二 类 即 为 Apf。 
Y=0.0002 0.0120 0.1437 
0.9996 0.9840 0.8286 


样本 的 分 布 图 如 图 3.6 所 示 。 
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| T T T T EL T T 
2 (5 了 
C 6 
1.9 上 上 了 
本 和 * | 
站 
起 天 6 了 
8 
1.6r | 
1.5r J 
1.4 上 村 
1.3 上 并 | 
3 | 12 13 14 15 16 17 18 1.9 
图 3.6 样本 数据 分 布 图 
例 2.8 ”利用 神经 网 络 方法 对 表 3.3 的 数据 进行 分 析 。 
表 3.3 煤 样 各 指标 的 实测 数据 
煤 样 样 特 性 指 标 
本 分 类 粒状 | 壳 质 | 平均 最 大 
及 编号 | 器 | 所 -一 一 树脂 体 | 反射 率 
92.21 | 2.74 0.00 | 000 | 492 
92.58 | 2.80 0.00 | 000 | 3.98 
无 烟煤 92.63 | 3.04 0.00 | 000 | 412 
93.01 | 1.98 0.00 | 000 | 605 
93.01 | 2.79 0.00 | 000 | 450 
84.62 | 5.61 4.10 12.50 | 0.90 
84.53 | 5.55 11.3 11.00 | 0.85 
83.82 | 5.78 740 | 450 | 093 
B265 | .S57 3.20 | 780 | 0.83 
82.43 | 5.77 5.00 | 410 | 084 
38 | ‘S87 7.80 | 430 | 071 
72.49 | 531 3.12 | 3.73 | 030 
72.29 | 5.26 二 30 及 
褐 煤 71.39 | 5.33 3.00 3.60 0.32 
70.95 | 5.04 Zo (|) 3 0.33 
TL | S17 2 | Ss4" | Qa 
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解 : 

对 于 此 例 ， 利 用 神经 网 络 图 形 用 户 界 面 (GUI ) 进行 分 析 。 

首先 在 工作 空间 输入 数据 ， 即 属性 数据 x 和 目标 分 类 数据 y， 然 后 打开 神经 网 络 模式 识别 工 

具 箱 图 形 界 面 : 
>>nprtool 


出 现 如 图 3.7 所 示 的 图 形 。 















































Neural Network Pattern Recognition Tool (nprtool) 


Welcome to the Neural Network Pattern Recognition Tool. 
Solve a pattermrrecognition problem with a two-layer feed-forward network- 


Introduction Neural Network 


In pattern recognition problems, you want & neural network 


to classify inputs into a set of target categories. - 


了 or exanple, reognize the vineyard that a particular bottle 





9 
based on uniformity of cell size, clunp thiclkness, mitosis 
(cancer_dataset). 

A two-layer feed-forward network, with signoid hidden and 
The Neural Network Pattern Recognition Tool will help you output neurons (newpr), can classify vectors arbitrarily 
Select data, create and train a network, and evaluate its well, given enough neurons in its hidden layer. 
Pperformance using mean square error and confusion matrices. 

The network will be trained with scaled conjugate gradient 

backpropagation (trainsce). 


苹 Te continue, dlidk [ect]. 








四 caeel 














图 3.7 神经 网 络 模式 识别 用 户 图 形 界面 
单 击 图 形 中 的 Next， 进 入 数据 导入 ， 选 择 从 工作 空间 中 输入 数据 ， 分 别 导 入 输入 数据 (x) 及 
标 数 据 (y)。 要 注意 目标 数值 应 是 二 值 类 型 , 对 于 本 例 为 : y= [0000000000011111:000 
0011111111111], 分 别 代表 1、2 和 3 类。 并 且 在 输入 数据 和 目标 数据 的 格式 相同 时 ， 才 
能 进入 验证 和 测试 样本 。 在 此 对 话 框 对 输入 的 样本 进行 训练 、 验 证 和 测试 样本 选择 ， 可 以 选择 不 
同 的 比例 。 然 后 单 击 Next， 进 入 网 络 选 择 对 话 框 ， 在 此 设置 隐 含 层 数目 ， 默 认为 20。 
单 击 Next， 进 入 网 络 训练 对 话 框 。 单 击 Retrain， 便 可 以 对 网 络 进行 训练 和 查看 训练 结果 。 
单 击 Next， 进 入 网 络 评估 对 话 框 ， 在 此 可 以 再 训练 或 进入 下 一 对 话 框 进 行 网 络 保存 。 以 相应 名 
字 将 结果 输入 到 命令 窗口 ， 便 可 以 查看 分 类 结果 及 对 未 知 样本 进行 预测 。 对 于 本 例 为 : 


outputl=[0.0001 0.0001 0.0001 0.0004 0.0001 0.0005 0.0007 0.0005 0.0006 


















































0.0005 0.0004 0.0004 0.0004 0.0003 0.9997 1.0000 0.9993 0.9992] 
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output2=[0:0142 0.0008 0-9996 0.9998 0.9998 0.9996 0-9999 


0 9997 09998. .059996° .0599993. 09999 0>99990 0599981 


例 2.9 给 定 待 拟 合 的 曲线 形式 为 : f(x) = 0.5 + 0.4sin(2xx)。 

在 f(D 上 等 间隔 取 30 个 点 的 数据 ， 在 此 数据 的 输出 值 上 加 均值 为 0， 均 方差 o=0.05 的 正 态 
分 布 噪声 作为 给 定 训练 数据 ， 用 多 项 式 拟 合 此 函数 , 分 别 取 多 项 式 的 阶 次 为 1、3 和 11 阶 , 图 示 
出 拟 合 结果 ， 并 讨论 多 项 式 阶 次 对 拟 合 结果 的 影响 。 

解 : 


>> x=linspace(-6,6,30);for 




















i=1:length (x) ;y (i)=0.5+0.4*sin(2*pi*x(i))+normrnd(0,0.05) ;end 


Pl=polyfit (x, y,1) ;yl1=polyval (Pl1, x) ; P2=polyfit (x, y, 3) ;y2=polyval (P2, x) ; P3=poly 
fit (x,y,11); 


y3=polyval (P3,x); 
>>nftool 


打开 如 图 3.8 神 经 网 络 拟 合 图 形 用 户 对 话 框 ， 然 后 单 击 Next， 进 入 Select Data 对 话 框 ， 从 工作 


空间 中 分 别 选择 数据 ( xyl )、( xy2 )、(x,y3 )， 对 1 阶 、3 阶 和 11 阶 多 项 式 产生 的 数据 进行 拟 合 ， 
生成 图 3.9 所 示 的 三 种 图 形 ， 从 图 形 中 可 看 出 ， 多 项 式 的 阶 数 越 高 ， 拟 合 程度 越 高 。 





Neural Network Fitting Tool (nftool) 





人 Welcome to the Neural Network Fitting Tool. 


Solve an input-output fitting problem with a two-layer feed-forward neural network. 


Introduction Hewral Network 
In fitting problens, you want a neural network to map 
‘between « data set of mumeric inputs end a set of nuneric Ee -人 


证 避 贡 mpat Output 
Exanples of this type of problen include estinating house 
prices from such input varisbles as tax rate, pupil/teacher 


ratio in local schools and crine rate (house_dataset); 

astinating engine enission levels based on neasurenents of 

fuel consunption and speed (engine_dataset); or predicting a = A two-layer feed-forward network with signoid hidden neurons 
patient’s bodyfat level based on body measurements and linear output neurons (newfit), can fit 
(bodyfat_dataset). mlti-dimensional mapping problems arbitrarily well, given 


consistent data and enough neurons in its hidden 1ayer. 
The Neural Network 了 itting Tool will help you select data, 


create sand train a network, and evaluate its performance The network will be trained with Levenberg-Narquardt 

Using nean square error and regression snslysis. backpropagation algorithn (trainln), unless there is not 
enough menory, in which case scaled conjugate gradient 
backpropagation (trainsce) will be used 


苹 Te cmtinse， aid [iert]. 
ye rm 
图 3.8 神经 网 络 拟 合用 户 图 形 对 话 杠 
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Fit (plotfit) 


Training Targets 
Training Outputs 
Validation Ta 
Validation Outputs 
Test Targets 





11 阶 
图 3.9 各 阶 多 项 式 的 拟 合 图 形 
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Fit (plotfit) 


Training Targets 
Training Outputs 
Validation Targets 


Validation Outputs 
Test Targets 
Test Outputs 
— Enors 


wm El, 





3 阶 
续 图 3.9 
例 2.10 利用 BP 算法 ， 研 究 以 下 各 函数 的 逼近 问题 


pe lx100 
x 


解 : 
>> x=linspace(1,100,300);for i=1:length (x);y(i)=1/x(i);end;pr=minmax (x); 
net=newff (pr, [10,1],{'l0gsig', 'logsig'}) ;net.trainParam.show = 
1l0;net.trainparam.1lr = 0.05; 
net .trainParam.goal = le-l0;net.trainParam.epochs = 3000;net=train (net, x,y); 
yl=sim (net, x) ;plot (x, y, '0',x,yl, '*-");hold on;ezplot ('1/x', [1 100]); 


得 到 图 3.10 的 结果 ， 可 见 逼 近 效果 较 好 。 


0.1 


0.08 


0.06 


0.04 


0.02 
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图 3.10 函数 数据 逼近 图 形 及 原 函 数 图 形 
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4.1 概述 


进化 算法 ( Evolutionary Algorithm，EA ) 是 一 类 模拟 生物 进化 过 程 与 机 制 求解 问题 的 自 组 织 、 
自 适 应 人 工 智能 技术 。 依照 达 尔 文 的 自然 选择 和 备 德尔 的 遗传 变异 理论 , 生物 进化 是 通过 繁殖 、 变 
异 、 竞 争 、 选 择 来 实现 的 。EA 算法 就 是 建立 在 上 述 生 物 模型 基础 上 的 随机 搜索 技术 。 它 采用 编码 
来 表示 复杂 的 结构 ， 并 将 每 个 编码 称 为 一 个 个 体 (individual )。 算 法 维持 一 定数 量 的 编码 集合 ， 称 
为 种 群 (population )， 并 通过 对 种 群 中 的 个 体 进行 一 系列 遗传 操作 ( 即 交 叉 、 变 异 和 选择 ) 来 模拟 
进化 过 程 , 最 终 获 得 一 些 具 有 较 高 性 能 指标 的 编码 。 其 中 : 交叉 是 模拟 有 性 生殖 过 程 中 的 染色 体 变 
换 过 程 ; 变异 是 模拟 自然 界 中 生物 遗传 物质 的 变异 ; 选择 则 是 模拟 自然 界 的 优胜 劣 汰 过 程 。 

基因 算法 的 典型 实例 有 遗传 算法 、 进 化 规划 和 进化 策略 等 。 

基因 算法 主要 有 以 下 一 些 名 词 。 














个 体 (individual ); EA 所 处 理 的 基本 对 象 、 结 构 。 

群体 (population ): 个 体 的 集合 称 为 种 群体 ， 该 集合 内 个 体 的 数量 称 为 群体 的 大 小 。 
串 (bit string ) : 个 体 的 表现 形式 ， 对 应 于 生物 界 的 染色 体 。 在 算法 中 其 形式 可 以 是 二 
进 制 的 ， 也 可 以 是 实数 型 。 

基因 ( gene ): 基因 串 中 的 元 素 , 用 于 表示 串 中 个 体 的 特征 。 例如 有 一 个 串 S -am= 1011， 
则 其 中 的 1、0、1、1 这 4 个 元 素 分 别称 为 基因 ， 它 们 的 值 称 为 等 位 基因 (alletes ) 。 
一 个 个 体 的 适应 度 函 数值 就 是 它 的 得 分 或 评价 。 

基因 位 置 ( gene position ) : 一 个 基因 在 串 中 的 位 置 称 为 基因 位 置 , 有 时 也 简称 基因 位 。 
基因 位 置 由 串 的 左 向 右 计算 ， 例 如 在 串 S -aa= 1101 中 ,0 的 基因 位 置 是 3。 基因 位 置 
对 应 于 遗传 学 中 的 地 点 (locus ) 。 

基因 特征 值 ( gene feature ): 在 用 串 表 示 整 数 时 ， 基 因 的 特征 值 与 二 进 制 数 的 权 一 致 。 
例如 在 串 S=1011 中 , 基因 位 置 3 中 的 1, 它 的 基因 特征 值 为 2; 基因 位 置 1 中 的 1, 它 
的 基因 特征 值 为 8。 

串 结 构 空 间 (bit string space ) : 在 串 中 ， 基 因 任 意 组 合 所 构成 的 串 的 集合 ， 基 因 操 作 
是 在 串 结 构 空间 中 进行 的 。 串 结构 空间 对 应 于 遗传 学 中 的 基因 型 (genotype) 的 集合 。 
参数 空间 ( parameters space ) : 这 是 串 空间 在 物理 系统 中 的 映射 ， 它 对 应 于 遗传 学 中 的 
表现 型 ( Phenotype ) 的 集合 。 

适应 度 及 适应 度 函 数 ( fitness ) : 适应 度 表示 某 一 个 体 对 于 生存 环境 的 适应 程度 ， 其 值 
越 大 即 对 生存 环境 适应 程度 较 高 的 物种 将 获得 更 多 的 繁殖 机 会 ; 反之 ， 其 繁殖 机 会 相 
对 较 少 ， 甚 至 逐渐 灭绝 。 适 应 度 函数 则 是 优化 目标 函数 。 

多 样 性 或 差异 ( diversity ) : 一 个 种 群 中 各 个 个 体 间 的 平均 距离 。 若 平均 距离 大 ， 则 种 
群 具 有 高 的 多 样 性 ; 否则 ， 其 多 样 性 低 。 多 样 性 是 进化 算法 必 不 可 少 的 本 质 属性 ， 它 
能 使 进化 算法 能 搜索 一 个 比较 大 的 解 的 空间 区 域 。 

父 代 和 子 代 : 为 了 生成 下 一 代 ， 进 化 算法 在 当前 种 群 中 选择 某 些 个 体 〈 称 为 父 代 ) ， 
并 且 使 用 它们 来 生成 下 一 代 中 的 个 体 ( 称 为 子 代 ) 。 典 型 情况 下 ， 算 法 更 可 能 选择 那 
些 具 有 较 佳 适应 度 函 数值 的 父 代 。 

遗传 算 子 : 即 进化 算法 中 的 算法 规则 ， 主 要 有 选择 算 子 、 交 叉 算 子 和 变异 算 子 。 
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4.2 进化 算法 的 基本 原理 


进化 算法 是 借鉴 生物 界 自然 进化 过 程 与 机 制 而 产生 的 一 类 随机 搜索 方法 , 它们 是 模拟 由 个 体 
组 成 的 群体 的 集体 学 习 过 程 。 其 中 每 个 个 体 表示 给 定 问题 搜索 空间 中 的 一 点 。 进 化 算法 从 任 一 初 
始 群 体 出 发 ， 通 过 选择 、 变 异 和 交叉 过 程 ， 使 群体 进化 到 搜索 空间 中 越 来 越 好 的 区 域 。 选 择 过 程 
使 群体 中 适应 性 较 好 的 个 体 比 适应 性 差 的 个 体 有 更 多 的 生存 机 会 ; 交叉 过 程 使 得 子 代 继承 父 代 的 
基因 信息 ; 而 变异 过 程 则 是 在 群体 中 引入 新 的 个 体 。 

进化 算法 中 主要 涉及 编码 、 适 应 度 函 数 和 遗传 算 子 等 基本 要 素 。 


4.2.1 编码 


所 谓 编码 , 就 是 将 问题 的 解 空间 转换 成 基因 算法 所 能 处 理 的 搜索 空间 。 编码 是 应 用 进化 算法 
时 要 解决 的 首要 问题 , 也 是 关键 问题 。 它 决定 了 个 体 的 染色 体 中 基因 的 排列 次 序 ， 也 决定 了 遗传 
空间 到 解 空间 的 变换 解码 方法 。 编码 的 方法 也 影响 到 进化 算 子 的 计算 方法 , 好 的 编码 方法 能 够 大 
大 提高 遗传 算法 的 效率 。 

进化 算法 的 工作 对 象 是 字符 串 , 因此 对 字符 串 的 编码 有 两 点 要 求 : 一 是 字符 串 要 反映 所 研究 
问题 的 性 质 ; 二 是 字符 串 的 表达 要 便于 计算 机 处 理 。 常 用 的 编码 方法 有 以 下 几 种 。 


1. 二 进 制 编码 


二 进 制 编码 是 进化 算法 编码 中 最 常用 的 方法 。 它 是 用 固定 长 度 的 二 进 制 符号 {0，1} 串 来 表示 
群体 中 的 个 体 , 个 体 中 的 每 一 位 二 进 制 字符 称 为 基因 。 例如 长 度 为 10 的 二 进 制 编码 可 以 表示 0~ 
1 023 之 间 的 1 024 个 不 同 的 数 。 如 有 一 个 待 优化 变量 的 区 间 [e, 义 =[0，100]， 则 变量 的 取 值 范 
围 可 以 被 离散 成 (21) ?个 点 ， 其 中 7 为 编码 长 度 ，P 为 变量 数目 。 从 离散 点 0 到 离散 点 100， 依 
次 对 应 于 从 0000000000 到 0001100100。 

二 进 制 编码 中 符号 串 的 长 度 与 问题 的 求解 精度 有 关 。 如 果 变 量 的 变化 范围 为 la，5]， 编 码 长 
度 为 1 则 编 玛 精度 为 2 。 

二 进 制 编码 、 解 码 操作 简单 易 行 , 杂交 和 变异 等 遗传 操作 便于 实现 , 符合 最 小 字符 集 编码 原 
则 ， 具 有 一 定 的 全 局 搜索 能 力 和 并 行 处 理 能 力 。 


2. 符号 编码 


符号 编码 是 指 个 体 染 色 体 编码 串 中 的 基因 值 取 自 一 个 无 数值 意义 而 只 有 代码 含义 的 符号 集 。 
这 个 符号 集 可 以 是 一 个 字母 表 , 如 {4，B，C，D，…}; 也 可 以 是 一 个 数字 序列 , 如 11，2，3， 
4，… | ; 还 可 以 是 一 个 代码 表 ， 如 | 41，42，43，A44，… | ， 等 等 。 

符号 编码 符合 有 意义 的 积木 块 原则 ， 便 于 在 进化 算法 中 利用 所 求 问题 的 专业 知识 。 











3. 浮 点 数 编码 


浮 点 数 编码 是 指 个 体 的 每 个 基因 用 某 一 范围 内 的 一 个 浮 点 数 来 表示 。 因为 这 种 编码 方法 使 用 
的 是 变量 的 真实 值 ， 所 以 也 称 为 真 值 编码 方法 。 
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浮 点 数 编码 方法 适合 表示 范围 较 大 的 数 , 适用 于 精度 要 求 较 高 的 进化 算法 ,以 便于 在 较 大 空 
间 进 行 遗 传 搜索 。 

浮 点 数 编码 更 接近 于 实际 , 并 且 可 以 根据 实际 问题 来 设计 更 有 意义 和 与 实际 问题 相关 的 交叉 
和 变异 算 子 。 

4. 格雷 编码 

格雷 编码 是 这 样 的 一 种 编码 ， 其 连续 的 两 个 整数 所 对 应 的 编码 值 之 间 仅 有 一 个 码 位 是 不 同 
的 ， 其 余 的 则 完全 相同 。 如 31 和 32 的 格雷 码 为 010000 和 110000。 格 雷 码 与 二 进 制 编码 之 间 有 
一 定 的 对 应 关系 。 


设 一 个 二 进 制 编码 为 B= 和 rpm 22p， 则 对 应 的 格雷 码 为 G= gmngmi… gzg1。 由 二 进 制 向 格 
雷 码 的 转换 公式 为 








8 =ba Bh, i=m-l,m—2,…,l 
由 格雷 码 向 二 进 制 编码 的 转换 公式 为 
b=b Dg, i=m-l,m—2,-…,l 
其 中 : @ 表示 异 与 算 子 , 即 运算 时 两 数 相同 时 取 0、 不 同时 取 1。 如 0@0=191=0, 0@1=160=1。 
使 用 格雷 码 对 个 体 进行 编码 , 编码 串 之 间 的 一 位 差异 , 对 应 的 参数 值 也 只 是 微小 的 差异 , 这 
样 与 普通 的 二 进 制 编码 相 比 , 格雷 编码 方法 就 相当 于 增强 了 进化 算法 的 局 部 搜索 能 力 , 便于 对 连 
续 函 数 进行 局 部 空间 搜索 。 


4.2.2 ”适应 度 函 数 


在 用 进化 算法 寻 优 之 前 , 首先 要 根据 实际 问题 确定 适应 度 函数 , 即 要 明确 目标 。 各 个 个 体 适 
应 度 值 的 大 小 决定 了 它们 是 继续 繁衍 还 是 消亡 , 以 及 能 够 繁衍 的 规模 。 它 相当 于 自然 界 中 各 生物 
对 环境 的 适应 能 力 的 大 小 ， 充 分 体现 了 自然 界 适 者 生存 的 自然 选择 规律 。 

与 数学 中 的 优化 问题 不 同 的 是 , 适应 度 函 数 求 取 的 是 极 大 值 ,而 不 是 极 小 值 , 并 且 适 应 度 函 
数 具 有 非 负 性 。 

对 于 整个 进化 算法 影响 最 大 的 是 编码 和 适应 度 函数 的 设计 。 好 的 适应 度 函数 能 够 指导 算法 从 
非 最 优 的 个 体 进化 到 最 优 个 体 ,并 且 能 够 用 来 解决 一 些 遗传 算法 中 的 问题 ,如 过 早 收敛 与 过 慢 结束 。 

过 早 收敛 是 指 算法 在 没有 得 到 全 局 最 优 解 之 前 , 就 已 稳定 在 某 个 局 部 解 。 其 原因 是 因为 某 些 
个 体 的 适应 度 值 大 大 高 于 个 体 适应 度 的 均值 , 在 得 到 全 局 最 优 解 之 前 , 它们 就 有 可 能 被 大 量 复制 
而 占 群 体 的 大 多 数 ， 从 而 使 算法 过 早 收敛 到 局 部 最 优 解 ， 失 去 了 找到 全 局 最 优 解 的 机 会 。 解 决 的 
方法 是 压缩 适应 度 的 范围 ， 防 止 过 于 适应 的 个 体 过 早 地 在 整个 群体 中 占据 统治 地 位 。 

过 慢 结 束 是 指 在 和 迭代 许多 代 后 , 整个 种 群 已 经 大 部 分 收敛 , 但 是 还 没有 得 到 稳定 的 全 局 最 优 
解 。 其 原因 是 因为 整个 种 群 的 平均 适应 度 值 较 高 , 而 且 最 优 个 体 的 适应 度 值 与 全 体 适 应 度 均值 间 
的 差异 不 大 ,使 得 种 群 进 化 的 动力 不 足 。 解 决 的 方法 是 扩大 适应 度 函 数值 的 范围 , 拉 大 最 优 个 体 
适应 度 值 与 群体 适应 度 均值 的 距离 。 

通常 适应 度 函 数 是 费用 、 和 盈利 、 方 差 等 目标 的 表达 式 。 在 实际 问题 中 ， 有 时 希望 适应 度 越 大 越 
好 ， 有 时 要 求 适应 度 越 小 越 好 。 但 在 进化 算法 中 ,一 般 是 按 最 大 值 处 理 ， 而 且 不 允许 适应 度 小 于 零 。 
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对 于 有 约束 条 件 的 极 值 , 其 适应 度 函 数 可 用 搜索 空间 限定 法 、 可 行 解 变换 法 和 罚 函数 三 种 方 
法 进行 处 理 。 

。 ”搜索 空间 限定 法 。 对 基因 算法 的 搜索 空间 的 大 小 加 以 限制 ， 使 搜索 空间 中 表示 一 个 个 

体 的 点 与 解 空间 中 表示 一 个 可 行 解 的 点 有 一 一 对 应 关系 。 进 行 搜索 时 ， 始 终 使 算法 在 

可 行 区 域内 。 
。 “可行 解 变 换 法 。 寻 找 出 一 种 基因 型 和 个 体 表现 型 之 间 的 多 对 一 的 变换 关系 ， 使 进化 过 
程 中 产生 的 个 体 总 能 够 通过 这 个 变换 转化 成 解 空间 中 满足 约束 条 件 的 一 个 可 行 解 。 
。 罚 函 数 法 。 对 解 空间 中 无 对 应 可 行 解 的 个 体 ， 计 算 其 适应 度 时 ， 给 以 一 个 罚 函数 ， 从 
而 降低 该 个 体 适 应 度 ， 使 该 个 体 被 遗传 到 下 一 代 群 体 中 的 机 会 减少 ， 从 而 使 该 个 体 在 





群体 中 的 更 新 换代 中 渐渐 消失 。 
例如 原来 的 极 值 问题 为 
min /CD 


St. h(x)=0,i=1,2,…,n 
BP)>0,j=L2,…,m 


可 转化 为 
min f(x) +MY (x)+ MY [min(0, gO 
i=l j=1 

式 中 : M 为 惩罚 系数 。 
4.2.3 ”遗传 算 子 

遗传 算 子 就 是 基因 算法 中 进化 的 规则 。 基本 基因 算法 的 遗传 算 子 主要 有 选择 算 子 、 交 叉 算 子 
和 变异 算 子 。 

1. 选择 算 子 

选择 算 子 就 是 用 来 确定 如 何 从 父 代 群 体 中 按照 某 种 方法 ， 选 择 哪些 个 体 作 为 子 代 的 遗传 算 
子 。 选 择 算 子 建立 在 对 个 体 的 适应 度 进行 评价 的 基础 上 , 其 目的 是 为 了 避免 基因 的 缺失 , 提高 全 
局 收敛 性 和 计算 效率 。 选 择 算 子 是 EA 的 关键 ， 体 现 了 自然 界 中 适 者 生存 的 思想 。 

常用 选择 算 子 的 操作 方法 有 以 下 几 种 。 

(1 ) 赌 轮 选择 方法 。 


此 方法 的 基本 思想 是 个 体 被 选择 的 概率 与 其 适应 度 值 大 小 成 正比 。 为 此 , 首先 要 构造 与 适应 
度 函 数 成 正比 的 概率 函数 zz 





,0 = 
二 大 人 
其 中 : 有) 为 第 :个 个 体 适应 度 函 数值 ，n 为 种 群 规模 。 然 后 将 每 个 个 体 按 其 概率 函数 zx 组 成 而 





积 为 1 的 一 个 赌 轮 。 每 转动 一 次 赌 轮 , 指针 落 入 串 i 所 占 区 域 的 概率 即 被 选择 复制 的 概率 为 ps(i)。 
当 P(D 较 大 时 ， 串 宗 被 选中 的 几率 大 ,但 适应 度 值 小 的 个 体 也 有 机 会 被 选中 ， 这 样 有 利于 保持 群 
体 的 多 样 性 。 
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(2 ) 排序 选择 法 。 

排序 选择 法 是 指 在 计算 每 个 个 体 的 适应 度 值 之 后 ,根据 适应 度 大 小 顺序 对 群体 中 的 个 体 进行 
排序 ， 然 后 按照 事先 设计 好 的 概率 表 按 序 分 配给 个 体 ， 作 为 各 自 的 选择 概率 。 所 有 个 体 按 适 应 度 
大 小 排序 ， 选 择 概率 和 适应 度 无 直接 关系 而 仅 与 序号 有 关 。 

(3 ) 最 优 保存 策略 。 

此 方法 的 基本 思想 是 希望 适应 度 最 好 的 个 体 尽 可 能 保留 到 下 一 代 群 体 中 。 其 步 又 如 下 : 

。 “” 找 出 当前 群体 中 适应 度 最 高 的 个 体 和 适应 度 最 低 的 个 体 ; 

。 ” 若 当 前 群体 中 最 佳 个 体 的 适应 度 比 总 的 迄今 为 止 的 最 好 个 体 的 适应 度 还 要 高 ， 则 以 当 

前 群体 中 的 最 佳 个 体 作为 新 的 迄今 为 止 的 最 好 个 体 ; 
。 “用 迄今 为 止 的 最 好 个 体 蔡 换 当前 群体 中 最 差 个 体 。 
该 策略 的 实施 可 保证 迄今 为 止 得 到 的 最 优 个 体 不 会 被 交叉 、 变 异 等 遗传 算 子 破坏 。 


2. 交叉 算 子 


交叉 算 子 体现 了 自然 界 信息 交换 的 思想 , 其 作用 是 将 原 有 和 群体 的 优良 基因 遗传 给 下 一 代 , 并 
生成 包含 更 复杂 结构 的 新 个 体 。 在 交叉 过 程 的 开始 ， 先 产生 随机 数 与 交叉 概率 pc 比较 ， 若 随机 
数 比 产 小 , 则 进行 交叉 运算 ， 否 则 不 进行 ， 直 接 返回 父 代 。 

交叉 算 子 有 一 点 交叉 、 二 点 交叉 、 多 点 交叉 和 一 致 交叉 等 。 

(1 ) 一 点 交叉 。 

首先 在 染色 体 中 随机 选择 一 个 点 作为 交叉 点 ,然后 在 第 一 个 父辈 的 交叉 点 前 串 和 第 二 个 父 非 
交叉 点 后 的 串 组 合 形成 一 个 新 的 染色 体 , 第 二 个 父辈 交叉 点 前 的 串 和 第 一 个 父辈 交叉 点 后 的 串 形 
成 另外 一 个 新 染色 体 。 

例如 下 面 两 个 串 在 第 5 位 上 进行 交叉 ， 生 成 的 新 染色 体 将 蔡 代 它们 的 父辈 而 进入 中 间 群 体 。 

1010® xyxyyxX ~ 




















XYXY ® XXXYXY XYXYXVXYYX 
《2 二 局 交 玉 。 


在 父 代 中 选择 好 两 个 染色 体 后 , 随机 选择 两 个 点 作为 交叉 点 。 然后 将 这 两 个 染色 体 中 两 个 交 
叉 点 之 间 的 字符 串 互 换 就 可 以 得 到 两 个 子 代 的 染色 体 。 
例如 下 面 两 个 串 选择 第 $ 位 和 第 7 位 为 交叉 点 ,然后 交换 两 个 交叉 点 间 的 串 就 形成 两 个 新 的 
染色 体 。 
1010@ xy® xyyx 1010xxxyxy 
xuy@xxs xny | xxyxyxyyx 
(3 ) 多 点 交叉 。 
多 点 交叉 与 二 点 交叉 相似 。 
(4) 一 致 交 叉 。 
在 一 致 交叉 中 , 子 代 染色 体 的 每 一 位 都 是 从 父 代 相 应 位 置 随机 复制 而 来 , 而 其 位 置 则 由 一 个 
随机 生成 的 交叉 掩 码 决 定 。 如 果 掩 码 的 某 一 位 是 1， 则 表示 子 代 的 这 一 位 是 从 第 一 个 父 代 中 的 相 
应 位 置 复 制 ， 否 则 从 第 二 个 父 代 中 相应 位 置 复制 。 
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例如 下 面 父 代 按 相应 的 掩 码 进行 一 致 交叉 : 
父 代 1 1010xyxyyx 

oa aa | —» spe 
掩 码 ”1001011100 

3. 变异 算 子 


变异 算 子 是 基因 算法 中 保持 物种 多 样 性 的 一 个 重要 途径 , 它 模拟 了 生物 进化 过 程 中 的 偶然 基 
因 突 变现 象 , 其 操作 过 程 是 对 以 变异 概率 随机 指定 的 某 个 体 编码 位 串 的 某 一 位 或 某 几 位 基因 位 的 
基因 值 进行 反 运 算 ， 即 由 1 变 为 0，0 变 为 1。 

同 自然 界 一 样 ,每 一 位 发 生变 异 的 概率 是 很 小 的 , 一般 在 0.001 ~ 0.1 之 间 。 如 果 过 大 , 会 破 
坏 许 多 优良 个 体 ， 也 可 能 无 法 最 优 解 。 

基因 算法 的 搜索 能 力主 要 是 由 选择 和 交叉 赋予 的 .变异 因子 则 保证 了 算法 能 搜索 到 问题 解 空 
间 的 每 一 点 ， 从 而 使 算法 具有 全 局 最 优 ， 进 一 步 增强 了 EA 的 能 力 。 

对 产生 的 新 一 代 群 体 进行 重新 评价 选择 、 交 叉 和 变异 。 如 此 循环 往复 ,使 群体 中 最 优 个 体 的 
适应 度 和 平均 适应 度 不 断 提高 , 直到 最 优 个 体 的 适应 度 达 到 某 一 限 值 或 最 优 个 体 的 适应 度 和 群体 
的 平均 适应 度 不 再 提高 ， 则 迭代 过 程 收 剑 ， 算 法 结束 。 

交叉 概率 、 变 异 概率 以 及 群体 大 小 和 遗传 运算 的 终止 进化 代数 的 选择 对 基因 算法 的 求解 结果 
和 效率 有 很 大 的 影响 。 目 前 尚 无 合理 选择 选择 参数 的 理论 依据 , 在 基因 算法 的 实际 应 用 中 , 往往 
需要 经 过 多 次 试验 后 才能 确定 这 些 参数 合理 的 取 值 大 小 或 取 值 范围 。 


4.2.4 ”基因 算法 的 特点 


基因 算法 具有 以 下 特点 。 

。 ”在 生物 系统 中 ， 进 化 被 认为 是 一 种 成 功 的 自 适应 方法 ， 且 具有 很 好 的 健壮 性 。 

。 ”基因 算法 搜索 的 假设 空间 中 ,假设 的 各 个 部 分 相互 作用 ， 每 一 部 分 对 总 的 假设 适应 度 

的 影响 难以 建 模 。 

。 ”基因 算法 易于 并 行 性 ， 且 可 降低 由 于 使 用 超 强 计算 机 硬件 所 带 来 的 昂贵 费用 。 

。 ”基因 算法 采用 一 种 随机 化 的 搜索 来 寻找 最 大 适应 度 的 假设 。 这 种 搜索 与 其 他 很 多 学 习 
方法 的 搜索 完全 不 同 。 


4.3 ”基因 算法 的 主要 步骤 


从 假设 的 初始 位 串 群 体 开 始 ， 基 因 算 法 按照 以 下 步骤 进行 进化 : 

Q@ 对 问题 进行 编码 ; 

@ 定义 适应 度 函 数 后 ， 生 成 初始 化 群体 ; 

@ 对 于 得 到 的 群体 进行 选择 复制 ， 交 叉 ， 变 异 操 作 ， 生 成 下 一 代 种 群 ; 
@ 判断 算法 是 否 满足 停止 准则 。 若 不 满足 ， 则 从 步 又 @ 起 重复 ; 

@ 算法 结束 ， 获 得 最 优 解 。 
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整个 操作 过 程 可 用 图 4.1 来 表示 。 


按 概率 选择 遗传 算 子 





[ 选择 一 个 个 休 | | 选择 两 个 个 体 | 


1 
y 





y 
后 代 插 入 新 群体 后 代 插入 新 群体 
对 新 群体 进行 变异 
vy 
个 | 
图 4.1 EA 流程 图 


4.4 ”基本 遗传 算法 


本 遗传 算法 ( Genetic Algorithm, GA ) 是 最 早出 现 的 一 种 进化 算法 , 它 强 














调 染色 体 的 操作 ， 


即 从 一 个 初始 种 群 出 发 ， 对 种 群 中 的 每 个 个 体 ( 染色 体 ) 进行 随机 选择 、 交 叉 和 变异 操作 , 产生 
一 群 新 的 更 适应 环境 的 个 体 ， 使 群体 进化 到 搜索 空间 中 越 来 越 好 的 区 域 。 这 样 代 代 的 不 断 繁殖 、 











进化 ， 最 后 收 全 到 一 群 最 适应 环境 的 个 体 上 ， 求 得 问题 的 最 优 解 。 
4.4.1 ”遗传 算法 的 基本 流程 
遗传 算法 的 基本 流程 如 下 。 


结构 数据 的 不 同 





@ 编码 : 将 问题 解 空间 的 可 行 解 表示 成 遗传 空间 的 基因 型 串 结构 数据 ， 
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组 合 构成 了 不 同 的 可 行 解 。 
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生成 初始 群体 : 随机 产生 Y 个 初始 串 结构 数据 ， 每 个 串 结构 数据 成 为 一 个 个 体 ，Y 个 个 





体 组 成 一 个 群体 ， 遗 传 算法 以 该 群体 作为 初始 选 代 点 。 


@ 适应 度 评估 检测 : 根据 实际 标准 计算 个 体 的 适应 度 ， 评 判 个 体 的 优 务 ， 即 该 个 体 所 代表 


@ 进行 选择 操作 : 利用 选择 算 子 ， 选 择 当 前 群体 中 优良 的 ( 适应 度 高 的 ) 个 体 ， 使 它们 有 机 
会 被 选中 而 进入 下 一 次 和 迭代; 舍弃 适应 度 低 的 个 体 , 体现 了 进化 论 的 “ 适 者 生存 ”的 原则 。 

@ 进行 交叉 操作 : 对 被 选择 的 群体 进行 交叉 算 子 操作 ， 体 现 了 信息 交换 的 原则 。 

@ 进行 变异 操作 : 随机 选择 种 群 中 的 某 个 个 体 ， 以 变异 概率 的 大 小 改变 个 体 某 位 基 的 值 。 


变异 为 产生 新 个 体 提供 了 机 会 。 
遗传 算法 的 基本 流程 图 如 图 4.2 所 示 。 














CT 
图 4.2 遗传 算法 流程 图 








4.4.2 ”控制 参数 选择 


GA 中 需要 选择 的 参数 主要 有 串 长 1、 群 体 大 小 n、 交 叉 概 率 pe 以 及 变异 概率 pm 等。 这 些 参 


数 对 GA 的 性 能 影响 较 大 。 


串 长 的 选择 取决 于 特定 问题 解 的 精度 。 要 求 精度 越 高 ， 串 长 越 长 ， 但 需要 更 多 的 计算 时 间 。 


为 了 提高 运行 效率 ， 可 采用 变 长 度 串 的 编码 方式 。 


群体 大 小 的 选择 与 所 求 问题 的 非 线性 程度 相关 ， 非 线性 越 大 ，” 越 大 。n 越 大 ， 则 可 以 含有 
较 多 的 模式 ,为 遗传 算法 提供 了 足够 的 模式 采样 容量 , 改善 遗传 算法 的 搜索 质量 ， 防 止 成 熟 前 收 
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敛 ， 但 也 增加 了 计算 量 。 一 般 建 议 取 盖 20~200。 
3. 交叉 概率 pe 


交叉 概率 控制 着 交叉 算 子 的 使 用 频率 。 在 每 一 代 新 群体 中 ， 需 要 对 pexn 个 个 体 的 染色 体 结 
构 进行 交叉 操作 。 交 叉 概率 越 高 ,群体 中 新 结构 的 引入 就 越 快 , 同时 ， 已 是 优良 基因 的 丢失 速率 
也 相应 提高 了 ; 而 交叉 概率 太 低 则 可 能 导致 搜索 阻 汪 。 一 般 取 pc=0.6~ 1.0。 


4. 变异 概率 pm 


变异 概率 是 群体 保持 多 样 性 的 保障 。 变 异 概率 太 小 ,可 能 使 某 些 基因 位 过 早 地 丢失 信息 而 无 
法 恢复 ， 而 大 高 则 遗传 算法 将 变 成 随机 搜索 。 一 般 取 p= 0.005 ~ 0.05。 

在 简单 遗传 算法 或 标准 遗传 算法 中 , 这 些 参数 是 不 变 的 。 但 事实 上 这 些 参数 的 选择 取决 于 问 
题 的 类 型 ,并且 需 要 随 着 遗传 进程 而 自 适 应 变化 。 只 有 这 种 有 自 组 织 性 能 的 GA 才能 具有 更 高 的 
鲁 棒 性 、 全 局 最 优 性 和 效率 。 


4.5 进化 规划 算法 


作为 进化 计算 的 一 个 重要 分 支 , 进化 规划 算法 具有 进化 计算 的 一 般 流 程 。 在 进化 规划 中 , 用 
高 斯 变异 方法 代替 平均 变异 方法 ,以 实现 种 群 内 个 体 的 变异 , 保持 种 群 中 丰富 的 多 样 性 。 在 选择 
操作 上 ,进化 规划 算法 采用 父 代 与 子 代 一 同 竞争 的 方式 , 采用 锦标 赛 选择 算 子 最 终 选 择 适应 度 较 
高 的 个 体 ， 其 基本 流程 如 图 4.3 所 示 。 与 其 他 进化 算法 相 比 ， 进 化 规划 有 其 特点 ， 它 使 用 交叉 、 
重组 之 类 体现 个 体 之 间 相互 作用 的 算 子 ， 而 变异 算 子 是 最 重要 的 算 子 。 


随机 初始 化 种 群 ， 种 群 大 小 N 




















通过 变异 算 子 产生 对 个 子 代 








计算 父 代 与 子 代 的 适应 度 














根据 适应 度 ， 从 父 代 与 子 代 ( 共 2N 个 ) 
中 选择 较 好 的 和 下 














记录 最 优 解 











是 否 满 足 结束 条 件 ? 


图 4.3 进化 规划 算法 流程 图 
进化 规划 可 应 用 于 组 合 优化 问题 和 复杂 的 非 线性 优化 问题 ， 它 只 要 求 所 求 问题 是 可 计算 的 ， 
使 用 范围 比较 广 。 
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进化 规划 算法 中 的 算 子 有 变异 算 子 、 选 择 算 子 。 
4.5.1 变异 算 子 
在 标准 进化 规划 算法 中 , 变异 操作 使 用 的 是 高 斯 变异 算 子 。 在 变异 过 程 中 ,计算 每 个 个 体 适 
应 度 函 数值 的 线性 变换 的 平方 根 获得 该 个 体 变异 的 标准 差 m, 将 每 个 分 量 加 上 一 个 服从 正 态 分 布 
的 随机 数 。 
设 于 为 染色 体 个 体 解 的 目标 变量 ， 有 工 个 分 量 ( 即 基因 位 ), 在 #+1 时 有 
X(t+1)= (+N(0,0) 
olt+D)=VBF(XO) +Y 
X(t+1)=x%(N)+N(0,o(t1+1)) 
式 中 : o 为 高 斯 变异 的 标准 差 ; x; 为 下 的 第 i 个 分 量 ; F(X()) 为 当前 个 体 的 适应 度 值 ( 在 这 里 ， 


2 
越 是 接近 目标 解 的 个 体 适应 度 值 越 小 ); NO,a) 是 概率 密度 为 的 PO= -过 (全 | 的 高 斯 随 


V 
机 变 最， 系数 所 入 是 待定 参数 ， 一 般 将 它们 的 值 分 别 设 为 1 和 0。 
根据 以 上 的 计算 方法 ， 就 可 以 得 到 变量 工 的 变异 结果 。 


4.5.2 ”选择 算 子 


在 进化 规划 算法 中 , 选择 操作 是 按照 一 种 随机 竞争 的 方式 , 根据 适应 度 函 数值 从 父 代 和 子 代 
的 2Y 个 个 体 中 选择 六 个 较 好 的 个 体 组 成 下 一 代 种 群 。 选 择 的 方法 有 依 概 率 选 择 、 锦 标 赛 选择 和 
精英 选择 三 种 。 锦 标 赛 选择 方法 是 比较 常用 的 方法 ， 其 基本 原理 如 下 。 
@ 将 入 个 父 代 个 体 组 成 的 种 群 和 经 过 一 次 变异 运算 后 得 到 的 六 个子 代 个 体 合并 , 组 成 一 个 
共 含 有 2NN 个 个 体 的 集合 I 
@ 对 每 个 个 体 xEI， 从 了 中 随机 选择 g 个 个 体 ， 并 将 4 个 个 体 的 适应 度 函 数值 与 x; 的 适应 
度 函 数值 相 比 较 ， 计 算出 这 g( g 宇 1 ) 个 个 体 中 适应 度 函 数值 比 x; 的 适应 度 差 的 个 体 的 
数目 w， 并 把 wi 作为 太 的 得 分 ，wiE (0,1,-…,q )。 
@ 在 所 有 的 2N 个 个 体 都 经 过 这 个 比较 后 ， 按 每 个 个 体 的 得 分 w 进 行 排序 ,选择 个 具有 
最 高 得 分 的 个 体 作为 下 一 代 种 群 。 
通过 这 个 过 程 , 每 代 种 群 中 相对 较 好 的 个 体 被 赋予 了 较 大 的 得 分 , 从 而 能 保留 到 下 一 代 的 群 
体 中 。 
为 了 使 锦标 赛 选择 算 子 能 发 挥 作用 ， 需 要 适当 地 设 定 g 值 。4 值 较 大 时 ， 算 子 偏向 确定 性 选 
择 , 当 q=2V 时 , 算 子 确定 地 从 2 个 个 体 中 选择 Y 个 适应 度 较 高 的 个 体 ， 容易 造成 早熟 等 次 端 ; 
相反 ，g 的 取 值 较 小 时 ， 算 子 偏向 于 随机 性 选择 ， 使 得 适应 度 的 控制 能 力 下 降 ， 导 致 大 量 低 适 应 
度 值 的 个 体 被 选 出 ,造成 种 群 退化 。 因 此 ,为 了 既 能 保持 种 群 的 先进 性 ,又 能 避免 确定 性 选择 带 
来 的 早熟 等 弊病 ， 需 要 根据 具体 问题 ， 合 理 地 选择 9 值 。 


4.6 进化 策略 计算 
20 世纪 60 年 代 ， 德 国 柏林 大 学 的 LRechenberg 和 HPSchwefel 等 在 进行 风 洞 试验 时 ， 由 于 
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设计 中 描述 物体 形状 的 参数 难以 用 传统 的 方法 进行 优化 , 因而 利用 生物 变异 的 思想 来 随机 改变 参 
数值 ， 获 得 了 较 好 的 结果 。 随 后 ， 他 们 对 这 种 方法 进行 了 深入 的 研究 和 发 展 ,形成 了 一 种 新 的 进 


化 计算 方法 一 进化 策略 。 


在 进化 策略 算法 中 ， 采 用 重组 算 子 、 高 斯 变异 算 子 实现 个 体 更 新 。1981 年 ，Schwefel 在 早 
期 研究 的 基础 上 ， 使 用 多 个 亲本 和 子 代 ， 后 来 分 别 构成 (pr ) -ES 和 (kX4) -ES 两 种 进化 策 
略 算法 。 在 (y+4) -ES 中 ， 由 4 个 父 代 通过 重组 和 变异 ， 生 成 4 个 子 代 ， 并且 父 代 与 子 代 个 体 
均 参加 生存 竞争 ， 选 出 最 好 的 A 个 个 体 作为 下 一 代 种 群 。 在 (wx4) -ES 中 ， 由 个 父 代 生 成 4 
个 子 代 后 ， 只 有 2X (4>A ) 个 子 代 参 加 生存 竞争 ， 选 择 最 好 的 w 个 个 体 作为 下 一 代 种 群 ， 代 蔡 原 








来 的 w 个 父 代 个 体 。 


进化 策略 是 专门 为 求解 参数 优化 问题 而 设计 的 ， 而 且 在 进化 策略 算法 中 引入 了 自 适 应 机 制 。 








进化 策略 是 一 种 自 适应 能 力 很 好 的 优化 算法 , 因此 更 多 被 应 上 








于 实数 搜索 空间 。 进 化 策略 在 确定 


了 编码 方案 、 适 应 度 函 数 及 遗传 算法 以 后 ,算法 将 根据 * 适 者 生存 不适 者 淘汰 "的 策略 ,利用 进 
化 中 获得 的 信息 自行 组 织 搜索 , 从 而 不 断 地 向 最 佳 方向 逼近 , 隐 含 并 行 性 和 群体 全 局 搜索 性 这 两 
个 显著 特征 ， 而 且 较 强 的 鲁 棒 性 ， 对 于 一 些 复杂 的 非 线 性 系统 求解 具有 独特 的 优越 性 能 。 


4.6.1 进化 策略 算法 的 基本 流程 
进化 策略 算法 的 流程 如 图 4.4 所 示 。 
< 算法 开始 、 
随机 产生 /个 初始 个 体 


执行 重组 算 子 ， 产 生 个 新 个 体 


了 
| “执行 高 斯 算 子 ， 进 一 步 改变 新 个 体 


计算 新 个 体 的 通 庙 度 一 


| 





+ 
| “执行 个 新 个 体 ， 组 成 下 一 代 种 群 








记录 种 群 中 的 的 最 优 解 
A i 

一 一 是 否 满足 结束 条 件 ? 
Le 


【输出 最 优 解 ， 算 法 结束 > 








否 


图 4.4 进化 策略 算法 的 流程 图 


4.6.2 ”算法 的 构成 要 素 
1. 染色 体 构造 


在 进化 策略 算法 中 , 常 采 用 传统 的 十 进 制 实数 型 表达 问题 , 并 且 为 了 配合 算法 中 高 斯 变异 算 


76 


第 4 章 进化 算法 @ 


子 的 使 用 ， 染 色 体 一 般 用 以 下 二 元 表达 方式 

(Xo) = ((xix2,- xr), (ouoz :orz)) 
式 中 : 下 为 染色 体 个 体 的 目标 变量 ; o 为 高 斯 变异 的 标准 差 。 每 个 民有 工 个 分 量 ， 即 染色 体 的 工 
个 基因 位 。 每 个 c 有 对 应 的 工 个 分 量 ， 即 染色 体 每 个 基因 位 的 方差 。 


2. 进化 策略 的 算 子 


(1) 重组 算 子 。 

重组 是 将 参与 重组 的 父 代 染色 体 上 的 基因 进行 交换 , 形成 下 一 代 的 染色 体 的 过 程 。 目 前 常见 
的 有 离散 重组 、 中 间 重 组 、 混 杂 重 组 等 重组 算 子 。 

Q@ 离散 重组 。 

离散 重组 是 随机 选择 两 个 父 代 个 体 来 进行 重组 产生 新 的 子 代 个 体 ， 子 代 上 的 基因 随机 从 其 
中 一 个 父 代 个 体 上 复制 。 

两 个 父 代 : 





全 
(Ki,07)=(( ,dd), (0 ,04,…,0l) 
然后 将 其 分 量 进行 随机 交换 ， 构 成 子 代 新 个 体 的 各 个 分 量 ， 从 而 得 到 以 下 的 新 个 体 
(KX,0) = (7 wi, x ), (ai , 00 ,0197)) 
很 明显 ， 新 个 体 只 含有 某 一 个 父 代 个 体 的 因子 。 
@ 中 间 重组 。 
中 间 重组 是 通过 对 随机 两 个 父 代 对 应 的 基因 进行 求 平均 值 ， 从 而 得 到 子 代 对 应 基因 的 方法 ， 
进行 重组 产生 子 代 个 体 。 


两 个 父 代 : 
(XK',0")=((,0,, 7), (01,03,,07)) 
(XI,07)=(( ,dd),(0f .04,01) 
新 个 体 : 


(Ks0) = 1+)/ 2 +) /2 +)/D, (ot + of)/2,(02 +04)/2,…,(07 +01)/2)) 
这 时 ， 新 个 体 的 各 个 分 量 兼 容 两 个 父 代 个 体 信息 。 
@ 混杂 重组 。 
混杂 重组 方法 的 特点 是 在 父 代 个 体 的 选择 上 。 混 杂 重 组 时 先 随机 选择 一 个 固定 的 父 代 个 体 ， 
然后 针对 子 代 个 体 每 个 分 量 再 从 父 代 群 体 中 随机 选择 第 二 个 父 代 个 体 , 也 即 第 二 个 父 代 个 体 是 经 
常 变化 的 。 
至 于 父 代 个 体 的 组 合 方式 既 可 以 采用 离散 方式 , 也 可 以 采用 中 值 方式 , 甚至 可 以 把 中 值 重 组 
中 的 1/2 改 为 [0.1] 之 间 的 任 一 权 值 。 
(2 ) 变异 算 子 。 
变异 算 子 的 作用 是 在 搜索 空间 中 随机 搜索 , 从 而 找到 可 能 存在 于 搜索 空间 中 的 优良 解 。 但 若 
变异 概率 过 大 , 则 使 搜索 个 体 在 搜索 空间 内 大 范围 跃迁 , 使 得 算法 的 启发 性 和 定向 性 作用 不 明显 ， 
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随机 性 增强 ,算法 接近 于 完全 的 随机 搜索 ; 而 若 变 异 概率 过 小 ， 则 搜索 个 体 仅 在 很 小 的 领域 范围 
内 变动 ， 发 现 新 基因 的 可 能 性 下 降 ， 优 化 效率 很 难 提高 。 

进化 策略 的 变异 是 在 旧 个 体 的 基础 上 增加 一 个 正 态 分 布 的 随机 数 ， 从 而 产生 新 个 体 。 

设 革 为 染色 体 个 体 解 的 目标 变量 , 有 工 个 分 量 ( 即 基因 位 )、o 为 高 斯 变异 的 标准 差 , 在 t+1 
时 有 








X(t+1) = +N(0,0) 
即 
oi(t+1) =0;(t)°exp(N(0,7 )+ N,(0,7)) 
X(t+l)=x(D)+N(0,o,(t+1)) 
式 中 : (wi(?),o0;(D) 为 父 代 个 体 第 i 个 分 量 ; (xi(1+]),0i(t+])) 为 子 代 个 体 的 第 i 个 分 量 ，N(0,1) 
是 服从 标准 正 态 分 布 的 随机 数 ; Ni(0.D 是 针对 第 i 个 分 量 生产 一 次 符合 标准 正 态 分 布 的 随机 数 ; 
Tt、T 是 全 局 系数 和 局 部 系数 ， 通 常 都 取 1。 
(3 ) 选择 算 子 。 
选择 算 子 为 进化 规定 了 方向 , 只 有 具有 高 适应 度 的 个 体 才 有 机 会 进行 进化 繁殖 。 在 进化 策略 
中 ， 选 择 过 程 是 确定 性 的 。 
在 不 同 的 进行 策略 中 ， 选 择机 制 也 有 所 不 同 。 
在 (pt4) -ES 策略 中 , 在 原 有 4w 个 父 代 个 体 及 新 产生 的 4 个 新 子 代 个 体 中 ， 再 择优 选择 
个 个 体 作为 下 一 代 群 体 ， 即 精英 机 制 。 在 这 个 机 制 中 ， 上 一 代 的 父 代 和 子 代 都 可 以 加 入 到 下 一 代 
父 代 的 选择 中 , &>4 和 j=4 都 是 可 能 的 ， 对 子 代 数量 没有 限制 ， 这 样 就 最 大 限度 地 保留 了 那些 
具有 最 佳 适应 度 的 个 体 ， 但 是 它 可 能 会 增加 计算 量 ， 降 低 收敛 速度 。 
在 (jy, 4) -ES 策略 中 ， 因 为 选择 机 制 依赖 于 出 生 过 剩 的 基础 上 ， 因 此 要 求 y >4。 在 新 产 
生 的 入 个 新 子 代 个 体 中 择优 选择 w 个 个 体 作为 下 一 代 父 代 群 体 。 无 论 父 代 的 适应 度 和 子 代 相 比 是 
好 是 坏 ， 在 下 一 次 迭代 时 都 被 遗弃 。 在 这 个 机 制 中 ， 只 有 最 新 产生 的 子 代 才能 加 入 选择 机 制 中 ， 
从 入 中 选择 出 最 好 的 4 个 个 体 ， 作 为 下 一 代 的 父 代 ， 而 适应 度 较 低 的 4 一 个 个 体 被 放弃 。 
以 上 三 种 进化 算法 在 本 质 上 是 相同 的 , 但 它们 之 间 又 存在 区 别 。 其 中 ,进化 规划 与 遗传 算法 
的 区 别 主要 体现 在 以 下 三 个 方面 : 
Q@ 在 待 求 问题 的 表示 方面 ， 进 化 规划 因为 其 变异 操作 不 依赖 于 线性 编码 ， 所 以 往往 可 以 根据 
待 求 问题 的 具体 情况 而 采取 一 种 较为 灵活 的 组 织 方式 ;而 遗传 算法 则 通常 要 把 问题 的 解 编 
码 成 一 串 表达 符号 ， 即 基因 串 的 形式 。 前 者 更 类 似 于 人 工 神 经 网 络 对 问题 的 表达 方式 。 
@ 在 后 代 个 体 的 产生 方面 ， 进 化 规划 侧重 于 群体 中 个 体 行为 的 变化 。 与 遗传 算法 所 不 同 的 
是 ， 它 没有 利用 个 体 之 间 的 信息 变换 ， 所 以 也 就 省 去 了 交叉 算 子 而 只 保留 了 变异 操作 。 
因此 在 不 考虑 效率 的 前 提 下 ， 进 化 规划 算法 在 应 用 方面 更 易于 掌握 ， 便 于 实现 。 
@ 在 竞争 与 选择 方面 ， 进 化 规划 允许 父 代 与 子 代 一 起 参与 竞争 ， 正 因为 如 此 ， 进 化 规划 可 以 
保证 以 概率 1 收敛 的 全 局 最 优 解 ; 而 若 不 强制 父 代 最 佳 解 的 典型 遗传 算法 ， 是 不 收敛 的 。 
进化 规划 与 进化 策略 的 主要 区 别 体现 在 以 下 两 个 方法 。 
Q@ 在 编码 结构 方面 ， 进 化 规划 是 将 种 群 变化 类 比 为 编码 结构 ， 而 进化 策略 则 是 把 个 体 类 比 于 编 
码 结构 。 所 以 ， 前 者 不 需要 再 通过 选择 操作 来 产生 新 候选 解 ， 而 后 者 还 要 进行 这 一 操作 。 
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@ 在 竞争 与 选择 方面 ， 进 化 规划 要 通过 适当 的 选择 机 制 ， 从 父 代 和 当前 子 代 中 选取 优胜 者 
组 成 下 一 代 群 体 ; 而 进化 策略 则 是 通过 一 种 确定 性 选择 ， 按 适应 值 大 小 直接 将 当前 优秀 
个 体 和 父 代 中 的 最 佳 个 体 保留 到 下 一 代 。 


4.7 ”量子 遗传 算法 


分 析 EA 算法 可 以 发 现 ， 它 没有 利用 进化 中 未 成 熟 优 良子 群体 所 提供 的 信息 ， 因 而 限制 了 

进化 速度 。 事 实证 明 , 在 进化 中 引入 好 的 引导 机 制 可 以 增强 算法 的 智能 性 , 提高 搜索 效率 , 解决 
EA 中 的 早熟 和 收敛 速度 问题 。 现 有 EA 的 许多 改进 工作 也 正 是 致力 于 这 一 方面 。 
+ 子 遗传 算法 ( Quantum Genetic Algorithm, QGA ) 是 量子 进化 理论 与 EA 算法 结合 的 产物 。 
量子 计算 具有 天 然 的 并 行 性 , 极 大 地 加 快 了 对 海量 信息 处 理 的 速度 , 使 得 大 规模 复杂 问题 能 够 在 
有 限 的 指定 时 间 内 完成 。 利 用 量子 计算 的 这 一 思想 , 将 量子 算法 与 经 典 算法 相 结 合 , 通过 对 经 典 
表示 方法 进行 相应 的 调整 ， 使 得 其 具有 量子 理论 的 优点 ， 从 而 成 为 有 效 的 算法 。 

量子 遗传 算法 使 用 量子 比特 编码 染色 体 。 这 种 概率 幅 表 示 可 以 使 一 个 量子 染色 体 同时 表征 
多 个 状态 的 信息 , 带 来 丰富 的 种 群 ， 而 且 当 前 最 优 个 体 的 信息 能 够 很 容易 地 用 来 引导 变异 ,使 得 
种 群 以 大 概率 向 着 优良 模式 进化 ， 加 快 收敛 。 


4.7.1 基本 概念 

















1. 量子 比特 

用 量子 比特 来 存储 和 处 理 信息 ， 称 为 量子 信息 。 区 别 量子 信息 与 经 典 信息 最 大 的 不 同 在 于 : 
经 典 信息 , 比特 只 能 处 在 一 个 状态 , 非 0 即 1; 而 在 量子 信息 中 , 量子 比特 可 以 同时 处 在 |0) 和 |1 
两 个 状态 ， 量 子 信息 的 存储 单元 称 为 量子 比特 ( qubit )。 一 个 量子 比特 的 状态 是 一 个 二 维 复数 空 
间 的 矢量 ， 它 的 两 个 极 化 状态 10》 和 |]) 对 应 于 经 典 状态 的 0 和 1。 

量子 比特 不 仅 可 以 表示 0 和 1 两 种 状 态 ， 也 可 以 同时 表示 两 个 量子 的 番 加 态 , 即 “0” 态 和 “1” 
态 的 任意 中 间 态 。 一 般 情 况 下 ， 用 个 量子 位 就 可 以 同时 表示 >" 个 状态 ， 其 释 加 态 可 以 描述 为 
|9)=al0)+BID 
式 中 : (Qa,pB) 是 一 对 复数 ， 表 示 相应 比特 状态 的 概率 幅 ， 且 满足 归 一 化 条 件 ， 即 |a 了 +1BP=1， 
10) 和 |1) 分别 表示 两 个 不 同 的 比特 态 ， 且 |o 表示 |0) 的 概率 ，| 存 表示 11) 的 概率 。 利 用 不 同 的 
量子 番 加 态 记录 不 同 的 信息 ， 量 子 比 特 在 同一 位 置 可 拥有 不 同 的 信息 。 


2. 量子 染色 体 


在 QGA 中 ,使 用 基于 量子 比特 编码 方式 ， 即 用 一 对 复数 定义 一 个 量子 比特 位 。 一 个 具有 m 


个 量子 比特 位 的 系统 可 以 描述 为 ， es 其 中 w+1BP-1，i=12.m。 因此 ， 


人 | 四 | 的 


属 | 应 | 一 历 














染色 体 种 群 中 第 z 代 的 个 体 互 ; 可 表示 为 到 -| | (=1,2,…,m) ,其 中 六 为 种 群 大 小 ， 
+ 为 进化 代数 。 


-3 


实战 大 数据 一 一 MATLAB 数据 挖掘 详解 与 实践 


4.7.2 ”量子 遗传 算法 流程 


量子 遗传 算法 是 在 传统 的 遗传 算法 中 引入 量子 计算 的 概念 和 机 制 后 形成 的 新 算法 。 与 传统 的 
遗传 算法 一 样 ， 量 子 遗传 算法 中 也 包括 个 体 种 群 的 构造 、 适 应 度 值 的 计算 、 个 体 的 改变 ， 以 及 种 
群 的 更 新 。 而 与 传统 遗传 算法 不 同 的 是 ,量子 遗传 算法 中 的 个 体 是 包含 多 个 量子 位 的 量子 染色 体 ， 
具有 秋 加 性 、 纠 缠 性 等 特性 ,一 个 量子 染色 体 可 呈现 多 个 不 同 状态 的 释 加 。 通 过 不 断 的 迭代 , 每 
个 量子 位 的 释 加 态 将 雪 塌 到 一 个 确定 的 态 ， 从 而 达到 稳定 , 趋 于 收敛 。 量 子 遗 传 算法 就 是 通过 这 
样 的 一 个 方式 ,不 断 地 进行 探索 、 进 化 ， 最 后 达到 寻 优 的 目的 。 

量子 遗传 算法 的 流程 如 图 4.5 所 示 ， 可 分 为 以 下 各 步骤 。 

< 算法 开始 > 





群 大 小 、 最 大 迭代 次 
数 、 变 异 概率 等 

b 4 
| 种 群 初始 化 : 

将 全 部 染色 体 的 角度 向 量 &( 力 初始 化 
为 /4， 即 令 全 部 染色 体 的 概率 旺 都 
| 初始 化 为 1A/2 


给 定 算法 参数 ， 包 括 种 | 














| 观察 0 (的 状态 玉生 成 二 进 制 解 集 P ( 





Y 
计算 (加 的 适应 度 值 ， 同 时 找到 当前 最 优 解 | 





比较 P( 台 与 最 优 解 的 状态 和 适应 度 ， 用 
量子 旋转 门 进 行 9 (的 更 新 


了 
通过 量子 非 门 实施 变异 操作 ， 更 新 8 (从 











了 
观察 0 (加 的 状态 来 生成 二 进 制 解 集 P ( 总 











1 
计算 P(D 的 适应 度 值 ， 同 时 找到 当前 最 优 解 








(输出 最 优 解 ， 算 法 结束 ) 
图 4.5 量子 遗传 流程 图 
@ 给 定 算法 参数 ， 包 括 种 群 大 小 、 最 大 和 迭代 次 数 ， 交 叉 概率 ， 变 异 概率 。 
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@ 种 群 初始 化 。 

初始 化 X 条 染色 体 PO) = Cr Xt， ,xX4) ， 将 每 条 桨 色 体 区 的 每 一 个 基因 用 二 进 制 表示 ， 
每 一 个 二 进 制 位 对 应 一 个 量子 位 。 设 每 个 染色 体 有 m 个 量子 位 ， 
==(X4,,…,X) GE=L2…,N) 为 一 个 长 度 为 m 的 二 进 制 串 ， 有 m 个 观察 角度 
Of = (Gh, 矶 ,6) ,其 值 决定 量子 位 的 观测 概率 | xx 或 | 让 PC=12 由， [op 
通过 观察 角度 O(D) 的 状态 来 生成 一 进 制 解 集 P(D。 初始 化 使 所 有 量子 染色 体 的 每 个 量子 位 的 观察 


角度 网 = 荆 ， 其 中 天 12…Ni 产 12.a 概率 怖 部 初 给 化 为 < 廊 ， 它 表示 在 := 0 代 ， 每 条 染 


色 体 以 相同 的 概率 -处 于 所 有 可 能 状态 的 线性 在 加 起 之 中 ， 印 lw 多 万 1se) ， 其 中 si 是 
由 二 进 制品 Ca,z -xy) 描述 的 第 个 状态 。 
图 计算 Po 中 每 个 解 的 适应 度 ， 存 储 最 优 解 。 
@ 开始 进入 选 代 。 
@ 最 子 旋转 门 。 量 子 旋转 门 操作 是 以 当前 最 优 解 为 引导 的 旋转 角度 作为 量子 染色 体 变异 的 
表现 ， 通 过 观测 最 优 个 体 和 当前 个 体 相应 量子 位 所 处 状态 ， 以 及 比较 它们 的 适应 度 值 ， 
来 确定 其 旋转 角度 的 变化 方向 和 大 小 。 量 子 门 可 根据 实际 问题 具体 设计 ， 令 


oor| sg ed 表示 量子 旋转 门 ， 设 9 为 原 量子 位 的 幅 角 ,旋转 后 的 角度 








Sin(AO) cos(AO) 


调整 操作 为 
cos(A6) -sin(AO) 1 1] (cos(p+A0) 
有 厅 ) \sin(A0) | 人 | 
a 


式 中 ， ( 多]- (9 ] 加 fk 第 1 个 县 了 位， 且 |aF+| 忆 P=1，A0 为 旋转 角度 。 


通过 量子 非 门 进行 变异 操作 ， 更 新 P()。 为 避免 陷入 早熟 和 局 部 极 值 ， 在 此 基础 上 进 一 
步 采用 量子 非 门 实现 染色 体 变异 操作 ， 这 样 能 够 保持 种 群 多 样 性 和 避免 选择 压力 。 

@ 通过 观察 角度 0() 的 状态 来 生成 二 进 制 解 集 P()， 即 对 于 每 一 个 比特 位 ， 随 机 产生 一 个 
[0,1] 之 间 的 随机 数 x。 比较 x 与 1&!『 的 大 小 , 如 果 二 | Qi 上 ， 则 令 该 比特 位 值 为 1; 否 
则 令 其 为 0。 

@ 计算 Pd) 的 适应 度 值 ， 最 后 选择 P(D 中 的 当前 最 优 解 ， 若 该 最 优 解 于 优 于 目前 存储 的 最 
优 解 ， 则 用 该 最 优 解 蔡 换 存储 的 最 优 解 ， 更 新 全 局 最 优 解 。 

@ 判断 是 否 达到 最 大 和 迭代 次 数 ， 如 果 是 ， 则 跳出 循环 , 输出 最 优 解 ; 否则 ， 则 转 到 步骤 @， 
继续 进行 。 


4.7.3 ”量子 算法 中 的 控制 参数 


1. 量子 染色 体 
与 传统 进化 算法 不 同 , 量子 遗传 算法 不 直接 包含 问题 ,而 是 引入 量子 计算 中 的 量子 位 , 采用 
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基于 量子 位 的 编码 方式 来 构造 量子 染色 体 ， 以 概率 司 的 形式 来 表示 革 种 状态 的 信息 。 

一 个 量子 位 可 由 其 概率 本 定义 为 | |， 同 理 mm 个 量子 位 可 定 X 为 2 |， 其 中 
1aP 1BP-1 ，i1=12m 。 因此， 染色体 种 群 中 第 + 代 的 个 体 可 表示 为 
区 和 
” [AIBA 

量子 比特 具有 秋 加 性 , 因此 通过 量子 位 的 概率 幅 产 生 新 个 体 使 得 每 一 个 比特 位 上 的 状态 不 再 
是 固定 的 信息 ， 一 个 染色 体 不 再 仅 对 应 于 一 个 确定 的 状态 , 而 变 成 了 一 种 携带 着 不 同 善 加 态 的 信 
息 。 由 于 这 种 性 质 ， 使 得 基于 量子 染色 体 编码 的 进化 算法 ， 比 传统 遗传 算法 具有 更 好 的 种 妊 多 样 
性 。 经 过 多 次 迁 代 后 ， 某 一个 量子 比特 上 的 概率 旺 |c 或 | BP 趋 近 于 0 或 1 时 ， 这 种 不 确定 性 
产生 的 多 样 性 将 丈 渐 消失 ， 最 终 坦 塌 到 一 个 确定 状态 ， 从 而 使 算法 最 终 收 全 ,这 就 表明 量子 染色 
体 辣 时 具有 探索 和 开发 两 种 能 力 。 

2. 量子 旋转 门 

在 量子 计算 中 ,各 个 量子 状态 之 间 的 转移 变换 主要 是 通过 量子 门 实现 的 ,而 量子 门 对 县 子 比 特 
的 概率 术 角 度 进行 旋转 ， 同 样 可 以 实现 量子 状态 的 改变 。 因 此 ,在 量子 遗传 算法 中 ,使 用 量子 放牧 
门 来 实现 量子 染色 体 的 变异 操作 。 同 时 ， 由 于 在 角度 旋转 时 考虑 了 最 优 个 体 的 信息 ,因此 ,在 最 估 
个 体 信息 的 指导 下 ， 可 以 使 种 群 更 好 地 趋向 最 优 解 ， 从 而 加 快 了 算法 收 俩 。 在 0.1 编码 的 问题 中 ， 








| (1 =12…:m) ， 其 中 为 种 群 大 小 ，! 为 进化 代数 。 




















人 oaor| 0 | 表示 了 eit 门 ， 训 角度 变 愉 的 角度 9 可 由 表 4.1 得 到 。 
Sin(AO) cos(AO) 
表 4.1 变异 角 6 (二 值 编码 ) 
旋转 角度 旋转 角度 符号 s( a;p; ) 

总 夺 TU8) 记 FC8eect) | | aip; <0 ai=0 B=0 

1 0 真 0.057 +1 = 0 土 1 

1 1 假 0.057 +1 = 0 +1 

1 1 真 0.057 +1 | 0 士 1 

表 中 zx 为 当前 量子 染色 体 的 第 ; 位， 总 为 当前 最 优 染色 体 的 第 ;位 , 均 为 观察 值 ，f(X) 为 

适应 度 函 数 ，AQ 为 旋转 角度 的 大 小 ， 控 制 算法 收敛 的 速度 ， 取 值 太 小 将 造成 收敛 速度 过 慢 , 但 
太 大 可 能 会 使 结果 发 散 ， 或 “早熟 ”收敛 到 局 部 最 优 解 。A& 取 值 可 固定 也 可 自 适 应 调整 大 小 ; 





0 ， 忆 为 当前 染色 体 第 i 位 量子 位 的 概率 幅 ; s( opB, ) 为 旋转 角度 的 方向 ， 保 证 算法 的 收敛 。 
3. 量子 非 门 操作 
采用 量子 非 门 实现 染色 体 的 变异 。 首 先 从 种 群 中 随机 选择 出 需要 实施 变异 操作 的 量子 染色 





第 4 章 进化 算法 @ 





ou 


体 并 在 这 上 量子 染色 体 的 若干 量子 比特 上 实施 变 只 操 作 .假设 | 
使 用 量子 非 门 实施 变异 操作 的 过 程 可 描述 为 


0 1||w A 

[oak 
上 式 可 以 看 出 , 量子 非 门 实施 的 变异 操作 ,实质 上 是 量子 位 的 两 个 概率 幅 互 换 。 由 于 更 改 了 量 
子 比 特 态 亚 加 的 状态 ， 使 得 原来 倾向 于 南 塌 到 状态 “1” 变 为 倾向 于 夫 塌 到 状态 “0”， 或 者 相反 ， 
因此 起 到 了 变异 的 作用 。 显 然 ， 该 变异 操作 对 染色 体 的 所 有 得 加 态 具有 相同 的 作用 。 

从 另 一 角度 看 ， 这 种 变异 同样 是 对 量子 位 幅 角 的 一 种 旋转 : 如 假设 某 一 量子 位 幅 角 为 9， 则 

变异 后 的 幅 角 变 为 (w2)- 4， 即 幅 角 正 向 旋转 了 m2。 这 种 旋转 不 与 当前 染色 体 比较 , 一律 正 向 旋 
转 ， 有 助 于 增加 种 群 的 多 样 性 ， 降 低 “ 早 熟 ” 收 敛 的 概率 。 


4.8 人 工 免 疫 算法 


20 世纪 80 年 代 中 期 ,美国 Michigan 大 学 的 Holland 教授 提出 的 遗传 算法 ,虽然 具有 使 用 方 
便 、 重 棒 性 强 、 便 于 并 行 处 理 等 特点 , 但 在 对 算法 的 实施 过 程 中 不 难 发 现 两 个 主要 遗传 算 子 都 是 
在 一 定 发 生 概 率 的 条 件 下 , 随机 地 、 没 有 指导 地 和 迭代 搜索 , 因此 它们 在 为 群体 中 的 个 体 提供 进化 
机 会 的 同时 , 也 不 可 避免 地 产生 了 退化 的 可 能 , 在 某 些 情况 下 , 这 种 退化 现象 还 相当 明显 。 另 外 ， 
每 一 个 待 求 的 实际 问题 都 会 有 自身 一 些 基 本 的 、 明 显 的 特征 信息 或 知识 , 然而 , 遗传 算法 的 交叉 
和 变异 算 子 却 相对 固定 , 在 求解 问题 时 , 可 变 的 灵活 程度 较 小 , 这 无 疑 对 算法 的 通用 性 是 有 益 的 ， 
但 却 忽视 了 问题 的 特征 信息 对 求解 问题 时 的 辅助 作用 , 特别 是 在 求解 一 些 复杂 问题 时 , 这 种 忽视 
所 带 来 的 损失 往往 是 比较 明显 的 。 实 践 也 表明 ,仅仅 使 用 遗传 算法 或 者 以 其 为 代表 的 进化 算法 ， 
在 模仿 人 类 智能 处 理事 物 的 能 力 方面 还 远 远 不 足 ， 必 须 更 加 深层 次 地 挖掘 与 利用 人 类 的 智能 资 
源 。 所 以 , 研究 者 力图 将 生命 科学 中 的 免疫 概念 引入 到 工程 实践 领域 , 借助 其 中 的 有 关 知 识 与 理 
论 并 将 其 与 已 有 的 一 些 智能 算法 有 机 地 结合 起 来 , 以 建立 新 的 进化 理论 与 算法 , 来 提高 算法 的 整 
体 性 能 。 基于 这 个 思想 , 将 免疫 概念 及 其 理论 应 用 于 遗传 算法 , 在 保留 原 算法 优良 特性 的 前 提 下 ， 
力图 有 选择 、 有 目的 地 利用 待 求 问题 中 的 一 些 特 征 信息 或 知识 来 抑制 其 优化 过 程 出 现 的 退化 现 
象 ， 这 种 算法 称 为 免疫 算法 (Immune Algorithm，IA )。 


4.8.1 人工 免 疫 算法 的 生物 学 基础 


fh ;个 量子 位 ， 
























































1. 生物 免疫 系统 


生物 免疫 系统 是 由 具有 免疫 功能 的 器 官 、 组 织 、 细 胞 、 免 疫 效应 分 子 和 有 关 的 基因 等 组 成 。 
它 是 生物 在 不 断 的 进化 过 程 中 ,通过 识别 “自己 ”和 “ 非 已 ”， 排 除 抗原 性 “异物 ”， 保 护 自身 免 
受 致 病 细菌 、 病 毒 或 病原 性 异物 的 侵袭, 维持 机 体 环境 平衡 , 维护 生命 系统 正常 运作 。 生 物 免 疫 
系统 是 机 体 的 保护 性 生理 反应 ， 也 是 机 体 适应 环境 的 体现 ， 具有 对 环境 不 断 学 习 、 后 天 积累 的 功 
能 ， 它 的 结构 及 其 行为 特性 极为 复杂 ， 关 于 其 内 在 规律 的 认识 ， 人 们 仍 在 进行 不 懈 的 努力 。 

为 了 便于 了 解 免疫 系统 的 基本 原理 ， 促 进 基本 免疫 机 理 的 算法 和 模型 用 于 解决 实际 工程 问 
题 ， 有 必要 先 简单 介绍 一 些 基本 概念 和 技术 术语 。 
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(1) 免疫 淋巴 组 织 。 

免疫 淋巴 组 织 按照 作用 不 同 分 为 中 枢 淋 巴 组 织 和 周围 淋巴 组 织 。 前 者 包括 胸腺 、 腔 上 圳 、 
人 类 和 哺乳 类 的 相应 组 织 是 骨 钥 和 肠 道 淋巴 组 织 ; 后 者 包括 脾脏 、 淋 巴结 和 全 身 各 处 的 弥散 淋 
巴 组 织 。 

(2 ) 免疫 活性 细胞 。 

免疫 活性 细胞 是 能 受 抗原 刺激 , 并 能 引起 特异 性 免疫 反应 的 细胞 。 按 发 育成 熟 的 部 位 及 功能 
不 同 ， 免 疫 活性 细胞 分 成 了 细胞 和 B 细胞 两 种 。 

GO T 细 胞 。 

T 细胞 又 称 胸 腺 依赖 性 淋巴 细胞 ， 由 胸腺 内 的 淋巴 干细胞 在 胸腺 素 的 影响 下 增殖 分 化 而 成 ， 
它 主要 分 布 在 淋巴 结 的 深 皮质 区 和 脾脏 中 央 动 脉 的 胸腺 依赖 区 。T 细胞 受 抗原 刺激 时 首先 转化 成 
淋巴 细胞 ,然后 分 化 成 免疫 效应 细胞 ,参与 免疫 反应 ,其 功能 包括 调节 其 他 细胞 的 活动 以 及 直接 
袭击 宿主 感染 细胞 。 

@) B 细胞 。 

B 细胞 又 称 免疫 活性 细胞 , 由 腔 上 囊 组 织 中 的 淋巴 干细胞 分 化 而 成 , 来 源 于 骨 通 淋巴 样 前 体 
细胞 ， 主 要 分 布 在 淋巴 结 、 血 液 、 脾 、 扁 桃 体 等 组 织 和 器 官 中 。B 细胞 受 抗原 刺激 后 ， 首 先 转化 
成 浆 母 细胞 ， 然 后 分 化 成 浆 细 胞 ,分泌 抗体 ， 执 行 细胞 免疫 反应 。 

(3 ) 抗原 与 抗体 。 

抗原 一 般 是 指 诱导 免疫 系统 产生 免疫 应 答 的 物质 , 包括 各 种 病原 性 异物 以 及 发 生 了 突变 的 自 
身 细 胞 ( 如 癌 细 胞 ) 等 。 抗 原 具有 刺激 机 体 产 生 抗 体 的 能 力 , 也 具有 与 其 所 诱 生 的 抗体 相 结合 
能 力 。 

抗体 又 称 免 疫 球 蛋白 , 是 指 能 与 抗原 进行 特异 性 结合 的 免疫 细胞 , 其 主要 功能 是 识别 、 消 除 
机 体内 各 种 病原 性 异物 。 抗 体 可 分 为 分 泌 型 和 膜 型 ,前 者 主要 存在 于 血液 及 组 织 液 中 ,发 挥 各 种 
免疫 功能 ; 后 者 构成 B 细胞 表面 的 抗原 受 体 。 各 种 抗原 分 子 都 有 其 特异 结构 Idiotype -抗原 化 学 
基 ， 又 称 Epitope - 表 位， 而 每 个 抗体 分 子 V 区 也 存在 类 似 机 构 受 体 ， 或 称 Paratope -对 位 。 抗 
体 根据 其 受 体 与 抗原 化 学 基 的 分 子 排列 相互 匹配 情况 识别 抗原 。 当 两 种 分 子 排列 的 匹配 程度 较 高 
a 两 者 亲 和 度 ( Affinity ) 较 大 ， 亲 和 度 大 的 抗体 与 抗原 之 间 会 产生 生物 化 学 反应 ,通过 相互 

合 形成 绑 定 ( Banding ) 结构 ， 并 促使 抗原 逐步 凋 亡 。 

(4) 亲和力 。 

免疫 细胞 表面 的 抗体 和 抗原 化 学 基 都 是 复杂 的 含有 电荷 的 三 维 结构 , 抗体 和 抗原 的 结构 与 电 
位 之 间 互 补 就 有 可 能 结合 ， 结 合 的 强度 即 为 亲和力 。 

(5 ) 亲和力 成 熟 。 

数 次 活化 后 的 子 代 细胞 仍 保持 原 代 B 细胞 的 特异 性 ,但 中 间 可 能 会 发 生 重 链 的 类 转换 或 点 突 
变 ,这 两 种 变化 都 不 影响 B 细胞 对 抗原 识别 的 特异 性 ,但 点 突变 影响 其 产生 抗体 对 抗原 的 亲和力 。 
高 杀 和 性 突变 的 细胞 有 生长 增殖 的 优先 权 , 而 低 亲 和 性 突变 的 细胞 则 选择 性 死亡 , 这 种 现象 被 称 
为 亲和力 成 熟 ， 它 有 利于 保持 在 后 继 应 答 中 产生 高 亲 和 性 的 抗体 。 

(6) 变异 。 

在 生物 免疫 系统 中 ,B 细胞 与 抗原 之 间 结 合 后 被 激活 ,然后 产生 高 频 变 异 。 这 种 克隆 扩 增 期 
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间 产 生 的 变异 形式 ， 使 免疫 系统 能 适应 不 断 变化 的 外 来 入 侵 。 

(7 ) 免疫 应 答 。 

免疫 应 答 是 指 抗原 进入 机 体 后 ,免疫 细胞 对 抗原 分 子 的 识别 、 活 化 、 分 化 和 效应 等 过 程 ; 它 
是 免疫 系统 各 部 分 生理 的 综合 体现 , 包括 了 抗原 提 呈 、 淋巴 细胞 活化 、 特异 识 别 、 免疫 分 子 形成 、 
免疫 效应 以 及 形成 免疫 记忆 等 一 系列 的 过 程 。 

(8 ) 免疫 耐 受 。 

免疫 耐 受 是 指 免 疫 活性 细胞 接触 抗原 物质 时 所 表现 的 一 种 特异 性 的 无 应 答 状 态 。 免疫 耐 受 现 
象 是 指 由 于 部 分 细胞 的 功能 缺失 或 死亡 而 导致 的 机 体 对 该 抗原 反应 功能 丧失 或 无 应 答 的 现象 。 


4.8.2 ”生物 免疫 基本 原理 


抗原 入 侵 机 体 后 会 刺激 免疫 系统 发 生 一 系列 复杂 的 连锁 反应 , 这 个 过 程 即 为 免疫 应 答 或 称 锡 
疫 反应 。 

免疫 应 答 有 两 种 类 型 : 一 种 是 遇 到 病原 体 后 首先 并 迅速 起 防卫 作用 的 问 有 性 免疫 应 答 ; 另 一 
种 是 适应 性 免疫 应 答 。 前 者 在 感染 早期 执行 防卫 功能 ;后 者 是 继 固 有 性 免疫 应 答 之 后 发 挥 效应 的 ， 
以 最 终 消除 病原 体 ， 促 进 疾病 治愈 及 防止 再 感染 起 主导 作用 。 

适应 性 免疫 应 答 又 分 为 初次 应 答 和 二 次 应 答 。 

抗原 初次 进入 机 体 后 , 免疫 系统 就 产生 应 答 ( 初次 应 答 ), 通过 刺激 有 限 的 特异 性 克隆 扩 增 ， 
迅速 产生 抗体 ,以 达到 足够 的 亲和力 辣 值 ， 消 除 抗原 ， 并 对 其 保持 记忆 ,以便 下 次 遭 到 同样 的 搞 
原 时 更 加 快速 地 做 出 应 答 。 初 次 应 答 比较 慢 ， 使 得 免疫 系统 有 时 间 建 立 更 加 具有 针对 性 的 免疫 应 
答 。 机 体 受到 相同 的 抗原 再 次 刺激 后 ， 多 数 情况 下 会 产生 二 次 应 答 。 由 于 有 了 初次 应 答 的 记忆 ， 
所 以 二 次 应 答 反 应 更 加 及 时 迅速 ， 无 须 重新 学 习 。 应 答 的 基本 过 程 如 图 4.6 所 示 。 


初次 感染 ( 初次 应 答 ) 























二 次 感染 ( 二 次 应 答 ) 


产生 抗体 ， 消 除 抗原 


获得 免疫 
感染 、 恢 复 、 免 疫 、 不 再 感染 


图 4.6 免疫 应 答 的 基本 过 程 

免疫 系统 通过 免疫 细胞 的 分 裂 和 分 化 作用 ， 可 产生 大 量 的 抗体 来 抑制 各 种 抗原 ， 具 有 多 样 性 。 
免疫 系统 执行 免疫 防卫 能 力 的 比较 细胞 为 淋巴 细胞 ( 包括 了 细胞 和 B 细胞 ), B 细胞 的 主要 作用 是 
识别 抗原 和 分 泌 抗体 , T 细胞 能 够 促进 和 抑制 B 细胞 的 产生 与 分 化 。 当 抗原 入 侵 机 体 后 , B 细胞 分 
泌 的 抗体 与 抗原 发 生 结 合作 用 ， 当 它们 之 间 的 结合 力 超过 一 定 限度 时 ， 分 泌 这 种 抗体 的 B 细胞 将 
会 发 生 克隆 扩 增 。 克隆 细胞 在 其 母体 的 亲和力 影响 下 , 按照 与 母体 亲和力 成 正比 的 概率 对 抗体 的 基 
因 多 次 重复 随机 突变 及 基因 块 重组 , 进而 产生 种 类 繁多 的 免疫 细胞 , 并 获得 大 量 识别 抗原 能 力 比 母 
体 强 的 B 细胞 。 这 些 识别 能 力 较 强 的 细胞 能 有 效 缠 住 入 侵 抗 原 ， 这 种 现象 称 为 灯 和 成 熟 。 

一 旦 有 细胞 达到 最 高 亲和力 , 免疫 系统 就 会 通过 记忆 进行 大 量 复制 , 并 直接 保留 ,因而 具有 
记忆 功能 和 克隆 能 力 。B 细胞 的 一 部 分 克隆 个 体 分 化 为 记忆 细胞 , 再 次 遇 到 相同 抗原 后 能 够 迅速 
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被 激活 ， 实 现 对 抗原 的 免疫 记忆 。B 细胞 的 克 降 扩 增 受 T 细胞 的 调节 ， 当 B 细胞 的 浓度 增加 到 
一 定 程度 时 ，T 细胞 对 B 细胞 产生 抑制 作用 ， 从 而 防止 B 细胞 的 无 限 复制 。 当 有 新 的 抗原 入 侵 
或 某 些 抗体 大 量 复制 而 被 破坏 免疫 平衡 时 , 通过 免疫 系统 的 调节 , 可 以 抑制 尝试 过 高 或 相近 的 抗 
体 的 再 生 能 力 ， 并 实施 精细 进化 达到 重新 平衡 ， 因 而 具有 自我 调节 的 能 力 。 

除了 机 体 本 身 的 免疫 功能 ， 可 以 人 为 地 接种 疫苗 ,起 到 免疫 的 作用 。 疫苗 是 将 细菌 、 病 毒 等 
病原 体 微生物 及 其 代谢 产物 , 经 过 人 工 减 毒 、 灭 活 或 利用 基因 工程 的 方法 制备 的 用 于 预防 传染 病 
的 自动 免疫 制剂 。 疫苗 保留 了 病原 菌 刺激 动物 免疫 系统 的 特性 ， 当 动物 体 接触 到 这 种 不 具有 伤害 
力 的 病原 菌 后 ， 免 疫 系统 便 会 产生 一 定 的 保护 物质 ， 如 免疫 激素 、 活 性 物质 、 特 殊 抗体 组 织 的 。 
当 动物 再 次 接触 到 这 种 病原 菌 时 , 动物 体 的 免疫 系统 便 会 依循 其 原 有 的 记忆 , 制造 更 多 的 保护 物 
质 来 阻止 病原 菌 的 伤害 。 


4.8.3 ”人 工 免 疫 算法 的 基本 概念 








1. 人 工 免疫 系统 的 定义 


目前 关于 人 工 免 疫 系统 的 定义 已 经 有 多 种 表述 ， 以 下 是 几 种 比较 贴切 的 定义 : 
(1 ) De Castro 给 出 的 第 二 个 人 工 免 疫 系统 定义 : 人 工 免疫 系统 是 受 生 物 免疫 系统 启发 而 来 
的 用 于 求解 问题 的 适应 性 系统 。 
(2 ) Timmis 给 出 的 第 二 个 人 工 免 疫 系统 定义 : 人 工 免 疫 系统 是 一 种 由 理论 生物 学 启发 而 来 
的 计算 范式 ， 借 鉴 了 一 些 免疫 系统 的 功能 、 原 理 和 模型 并 用 于 复杂 问题 的 解决 。 
(3 ) 国内 学 者 给 出 的 人 工 免疫 系统 的 定义 : 人 工 免疫 系统 是 基于 免疫 系统 机 制 和 理论 免疫 
学 而 发 展 的 各 种 人 工 范例 的 特 称 。 
生物 世界 为 计算 问题 求解 提供 了 许多 灵感 和 源泉 。 人 工 免 疫 系统 作为 一 种 智能 计算 方法 , 它 
与 人 工 神经 网 络 、 进 化 计算 及 群集 智能 一 样 ， 都 属于 基于 生物 隐喻 的 仿生 计算 方法 ， 且 都 来 源 于 
自然 界 中 的 生物 信息 处 理 机 制 的 启发 , 并 用 于 构造 能 够 适应 环境 变化 的 智能 信息 处 理 系统 , 即 是 
现代 信息 科学 与 生命 科学 相互 交叉 渗透 的 研究 领域 。 


2. 免疫 算法 的 基本 思想 


人 工 免 疫 算法 主要 包括 以 下 几 个 关键 步骤 。 

(1) 产生 初始 群体 。 对 初始 应 答 ， 初 始 抗体 随机 产生 ; 而 对 青 次 应 答 ， 则 借助 于 免疫 机 制 
的 记忆 功能 , 部 分 初始 抗体 由 记忆 单元 获取 。 由 于 记忆 单元 中 抗体 具有 较 高 的 适应 度 和 较 好 的 群 
体 分 布 ， 因 此 可 提高 收敛 速度 。 

(2 ) 根据 先 验 知识 抽取 疫苗 。 

(3 ) 计算 抗体 适应 度 。 

(4) 收敛 判断 。 

若 当前 种 群 中 包含 最 佳 个 体 或 达到 最 大 进化 代数 ， 则 算法 结束 ， 否 则 进行 以 下 步 又。 

(5 ) 产生 新 的 抗体 。 每 一 代 新 抗体 主要 通过 以 下 两 条 途径 产生 。 

人 基于 遗传 操作 生成 新 抗体 。 采 用 赌 轮 盘 选择 机 制 ， 当 群体 相似 度 小 于 阔 值 时 ， 多 样 性 满 
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足 要 求 ， 则 抗体 被 选中 的 概率 正比 于 适应 度 ， 反 之, 按 下 述 (2 ) 的 方式 产生 新 抗体 ， 交 
又 和 变异 算 子 均 采 用 单 点 方式 。 

@ 随机 产生 己 个 新 抗体 。 为 保证 抗体 多 样 性 ， 模 仿 免疫 系统 细胞 的 新 陈 代谢 功能 ， 随 机 产 
生 P 个 新 抗体 ， 使 抗体 总 数 为 N+P， 再 根据 群体 更 新 ， 产 生 规模 为 入 的 下 一 代 群 体 。 
@ 群体 更 新 。 对 种 群 进行 接种 疫苗 和 免疫 选择 操作 ， 得 到 新 一 代 规模 为 Y 的 父 代 种 群 ， 返 

回 (3)。 
i 








< 算法 开始 > 


抗原 识别 及 参数 确定 | 
| 编码 及 初始 化 抗体 种 群 


| 抽取 疫苗 算 子 | 


适应 人 


二 ，， - ->( 本 ) 











局 答 间 地 
交叉 算 子 、 重 组 算 子 、 变 异 算 子 等 





1 
1 
1 
1 
| 
免疫 算 子 1 
1 
1 
1 
1 
1 

















图 4.7 免疫 算法 的 流程 图 


4.8.4 ”免疫 算 子 


免疫 算 子 通常 包括 多 种 免疫 算 子 : 提取 疫苗 算 子 、 接 种 疫苗 算 子 、 免 疫 检 测算 子 、 免 疫 平衡 
算 子 、 免 疫 选择 算 子 、 克 隆 算 子 等 。 增 加 免疫 算 子 可 以 提高 进化 算法 的 整体 性 能 并 使 其 有 选择 、 
有 目的 地 利用 特征 信息 来 抑制 优化 过 程 中 的 退化 现象 。 


1. 提取 疫苗 算 子 
疫苗 是 依据 人 们 对 待 求 问题 所 具备 的 或 多 或 少 的 先 验 知识 , 它 所 包含 的 信息 量 及 其 准确 性 对 
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算法 的 运行 效率 和 整体 性 能 起 着 重要 的 作用 。 

首先 对 所 求解 的 问题 进行 具体 分 析 ， 从 中 提取 出 最 基本 的 特征 信息 , 然后 , 对 此 特征 信息 进 
行 处 理 , 以 将 其 转化 为 求解 问题 的 一 种 方案 , 最 后 , 将 此 方案 以 适当 的 形式 转化 为 免疫 算 子 ， 以 
实施 具体 的 操作 。 例 如 在 求解 TSP 问题 时 ， 可 以 依据 不 同城 市 之 间 的 距离 作为 疫苗 ， 在 应 用 于 
模式 识别 的 分 类 与 聚 类 时 ， 可 以 依据 样品 与 模板 之 间或 样品 与 样品 之 问 的 特征 值 距离 作为 疫苗 。 
由 于 每 一 个 疫苗 都 是 利用 局 部 信息 来 探求 全 局 最 优 解 , 即 估计 该 在 某 一 分 量 上 的 模式 , 所 以 没有 
必要 对 每 个 疫苗 做 到 精确 无 误 。 如 果 为 了 精确 ， 可 以 尽量 将 原 问题 局 域 化 处 理 得 更 彻底 ， 局 部 条 
件 下 的 求解 规律 就 会 越 明显 。 但 是 这 使 得 寻找 这 种 疫苗 的 计算 量 会 显著 增加 。 还 可 以 将 每 一 代 的 
最 优 解 作 为 疫苗 ,动态 地 建立 疫苗 库 ， 当 前 的 最 优 解 比 疫苗 库 中 的 最 差 疫 苗 的 亲和力 高 时 ,， 则 取 
代 该 最 差 疫苗 。 

值得 提出 的 是 ,由 于 待 求 问题 的 特征 信息 往往 不 止 一 个 , 所 以 疫苗 也 可 能 不 止 一 个 , 在 接种 
过 程 中 可 以 随机 地 选取 一 种 疫苗 进行 接种 , 也 可 以 将 多 个 疫苗 按照 一 定 的 逻辑 关系 进行 组 合 后 再 
予以 接种 。 


2. 接种 疫苗 算 子 


接种 疫苗 主要 是 为 了 提高 适应 度 , 利用 疫苗 所 蕴含 的 指导 问题 求解 的 启发 式 信息 , 对 问题 的 
解 进行 局 部 调整 ,使 得 候选 解 的 质量 得 到 明显 改善 。 接 种 疫苗 有 助 于 克服 个 体 的 退化 现象 和 有 效 
地 处 理 约束 条 件 ， 从 而 可 以 加 快 优化 解 的 搜索 速度 ， 进 一 步 提 高 优化 计算 效率 。 

设 个 体 x, 接种 疫苗 是 指 按 照 先 验 知识 来 修改 x 的 某 些 基因 位 上 的 基因 或 其 分 量 , 使 所 得 个 
体 以 较 大 的 概率 具有 更 高 的 适应 度 。 这 一 操作 应 满足 两 点 : 

@ 若 个 体 y 的 每 一 基因 位 上 的 信息 都 是 错误 的 ， 即 每 一 位 码 都 与 最 佳 个 体 不 同 ， 则 对 任何 
一 个 体 x， 转 移 为 y 的 概率 为 0; 

@ 若 个 体 x 的 每 个 基因 位 都 是 正确 的 , 即 x 已 经 是 最 佳 个 体 , 则 x 以 概率 1 转移 为 x。 设 群 
体 c= (xix2.…wxn ) 对 接种 疫苗 是 指 在 e 中 按 比 例 x 随机 抽取 wx=an 个 个 体 而 进行 的 操作 。 


3. 免疫 检测 算 子 


免疫 检测 是 指 对 接种 了 疫苗 的 个 体 进行 检测 ,， 若 其 适应 度 仍 不 如 父 代 , 说 明 在 交叉 、 变 异 的 
过 程 中 出 现 了 严重 的 退化 现象 , 这 时 该 个 体 将 被 父 代 中 所 对 应 的 个 体 所 取代 , 否则 原来 的 个 体 直 
接 成 为 下 一 代 的 父 代 。 

4. 免疫 平衡 算 子 

免疫 平衡 算 子 是 对 抗体 中 浓度 过 高 的 抗体 进行 抑制 , 而 对 浓度 相对 较 低 的 抗体 进行 促进 的 操 
作 。 在 群体 更 新 中 , 由 于 适应 度 高 的 抗体 的 选择 概率 高 ， 因 此 浓度 逐渐 提高 ， 这 样 会 使 种 群 中 的 
多 样 性 降低 。 因 此 某 抗体 的 浓度 达到 一 定 值 时 ， 就 抑制 这 种 抗体 的 产生 ; 反之 ， 则 相应 提高 浓度 
低 的 抗体 的 产生 和 选择 概率 。 这 种 算 子 保证 了 抗体 群体 更 新 中 的 抗体 多 样 性 , 在 一 定 程度 上 避免 
了 早熟 收敛 。 

(1 ) 浓度 计算 。 

对 于 每 一 个 抗体 ， 统 计 种 群 中 适应 度 值 与 其 相近 的 抗体 的 数目 ， 则 浓度 为 
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< -与 抗体 具有 最 大 亲和力 的 抗体 数 
抗体 总 数 





(2 ) 浓度 概率 计算 。 
设 定 一 个 浓度 阔 值 7， 统 计 浓 度 高 于 该 闪 值 的 抗体 ， 记 数量 为 HighNum。 规 定 这 HighNum 
个 浓度 较 高 的 抗体 浓度 概率 为 


1 
Trew “ 白 体 总数 <| 抗体 总 数 
其 余 浓度 较 低 的 抗体 浓度 概率 为 


a | 


po mem His 
9 抗体 总 数 | ”抗体 总 数 抗体 总 数 - HighNum 


5. 免疫 选择 算 子 


免疫 选择 算 子 是 对 经 过 免疫 检测 后 的 抗体 种 群 , 依据 适应 度 和 抗 休 浓 度 确定 的 选择 概率 选择 
出 个 体 ， 组 成 下 一 代 种 群 。 

概率 的 计算 公式 

di =a* p+(1—a). pa 

式 中 : py 为 抗体 的 适应 度 概率 ， 定 义 为 抗 休 的 适应 度 值 与 浓度 值 和 之 比 ; py 为 抗 休 的 浓度 概率 ， 搞 
休 的 浓度 越 高 越 会 受到 抑制 浓度 越 低 则 越 会 受到 促进 ; a 为 比例 系数 ,决定 了 适应 度 与 浓度 的 作 
用 大 小 。 

然后 再 利用 赌 轮 盘 选择 方式 ,依据 计算 出 的 选择 概率 对 抗体 进行 选择 , 选 出 相对 适应 度 较 训 
的 抗体 作为 下 一 代 的 种 群 抗体 。 


6. 克隆 算 子 


克隆 算 子 源 于 对 生物 具有 的 免疫 克隆 选择 机 理 的 模仿 和 借鉴 。 在 抗体 克隆 选择 学 说 中 , 当 搞 
体 侵入 机 体 中 ,克隆 选择 机 制 在 机 体内 选择 出 识别 和 消灭 相应 抗原 的 免疫 细胞 ,使 之 激活 、 分 化 
和 增殖 ， 进 行 免疫 应 答 以 最 终 消除 抗原 。 免 疫 克隆 的 实质 是 在 一 代 进 行 中 , 在 候选 解 的 附近 , 根 
据 亲 和 度 的 大 小 ， 产 生 一 个 变异 解 的 群体 ， 扩 大 了 搜索 范围 ， 避 免 了 遗传 算法 对 初始 种 群 敏 感 、 
容易 出 现 早熟 和 搜索 限于 局 部 极 小 值 的 现象 , 具有 较 强 的 全 局 搜索 能 力 。 该 算 子 在 保证 收敛 速度 
的 同时 又 能 维持 抗体 的 多 样 性 。 

通过 不 同 的 免疫 算 子 和 进化 算 子 ( 交叉 算 子 、 重 组 算 子 、 变 异 算 子 和 选择 算 子 ) 的 重组 融合 ， 
可 形成 不 同 的 免疫 进化 算法 。 其 中 免疫 算 子 可 以 优化 其 他 智能 算法 , 不 仅 保留 了 原来 智能 算法 的 
优点 ， 同 时 也 弥补 了 原 算法 的 一 些 不 足 和 缺点 。 


4.8.5 ”免疫 算法 与 免疫 系统 的 对 应 


免疫 算法 是 借鉴 了 免疫 系统 学 习性 、 自 适应 性 以 及 记忆 机 制 等 特点 而 发 展 起 来 的 一 种 优化 组 
合 方法 ， 在 使 用 免疫 算法 解决 实际 问题 时 ， 各 个 步骤 都 与 免疫 系统 有 对 应 关系 。 表 4.2 为 免疫 算 
法 与 免疫 系统 对 应 关系 表 。 其 中 根据 疫苗 修正 个 体 基因 的 过 程 即 为 接种 疫苗 , 其 目的 是 消除 抗原 
在 新 个 体 产生 时 带 来 负面 影响 。 











89 


四 实战 大 数据 一 一 MATLAB 数据 挖掘 详解 与 实践 


90 


表 4.2 免疫 算法 与 免疫 系统 对 应 关系 





























免疫 系统 免疫 算法 
抗原 要 解决 的 问题 

抗体 最 佳 解 向 量 

抗原 识别 问题 分 析 

从 记忆 细胞 产生 抗体 联想 过 去 的 成 功 解 

淋巴 细胞 分 化 优良 解 (记忆) 的 复制 保留 
细胞 抑制 剩余 候选 解 消除 

抗体 增加 (细胞 克隆 》 利用 免疫 算 子 产生 新 抗体 
亲和力 适应 度 

疫苗 含有 解决 问题 的 关键 信息 


4.8.6 ”人工 免 疫 算法 与 遗传 算法 的 比较 


人 工 免疫 算法 作为 一 种 进化 算法 ,所 用 的 遗传 结构 与 遗传 算法 中 的 类 似 , 采用 重组 、 变 异 等 
算 子 操作 解决 抗体 优化 问题 ， 但 也 存在 区 别 : 

(1) 人 工 免疫 算法 起 源 于 抗原 与 抗体 之 间 的 内 部 竞争 ， 其 相互 作用 的 环境 包括 内 部 及 外 部 
环境 ; 而 遗传 算法 起 源 于 个 体 和 自私 基因 之 间 的 外 部 竞争 。 

(2 ) 人 工 免疫 算法 假设 免疫 元 素 互相 作用 ， 即 每 一 个 免疫 细胞 等 个 体 可 以 互相 作用 ， 而 遗 
传 算 法 不 考虑 个 体 间 的 作用 。 

he stated older pi 而 在 遗传 算法 中 基因 由 环境 选择 。 

(4 ) 人 工 免疫 算法 中 ， 基 因 组 合 是 为 了 获得 多 样 性 ， 一 般 不 用 交叉 算 子 ， 因 为 人 工 免疫 算 
法 中 基因 是 在 同一 i 这 种 情况 下 ， 设 交叉 概率 为 0; 而 遗传 算法 后 代 个 体 基因 通 
常 是 父 代 交 叉 的 结果 ， 交 叉 用 于 混合 基因 。 

(5 ) 人 工 免疫 算法 选择 和 变异 阶段 明显 不 同 ， 而 遗传 算法 中 它们 是 交替 进行 的 。 

所 以 ， 也 可 以 把 人 工 免 疫 算法 看 作 是 遗传 算法 的 补充 。 

与 遗传 算法 相 比 ， 人 工 免疫 算法 在 个 体 更 新 、 选 择 算 子 、 维 持 多 样 性 等 方面 有 很 大 的 改进 。 

(1 ) 个 体 更 新 。 在 遗传 算法 中 的 交叉 、 变 异 算 子 之 后 ， 人 工 免 疫 算法 利用 先 验 知识 ， 引 入 
疫苗 接种 算 子 ， 这 样 对 随机 选 出 的 个 体 的 某 些 基因 位 ,用 疫苗 的 信息 来 替换 ， 从 而 使 个 体 向 最 优 
解 逼近 ， 加 快 了 算法 的 收敛 速度 ， 实 现 个 体 更 新 的 过 程 。 

(2 ) 选择 算 子 。 在 遗传 算法 中 ， 在 个 体 更 新 后 并 没有 判断 其 是 否 得 到 了 优化 ， 以 至 于 经 过 
交叉 、 变 异 后 的 个 体 不 如 父 代 个 体 , 即 出 现 退 化 现象 。 而 在 人 工 免疫 算法 中 , 在 经 过 交叉 、 变 异 、 
疫苗 接种 算 子 的 作用 后 , 新 生成 的 个 体 需要 经 过 免疫 检测 算 子 操作 , 即 判 断 其 适应 度 是 否 优 于 父 
代 个 体 , 如果 发 生 了 退化 , 则 用 父 代 个 体 蔡 换 新 生成 个 体 , 然后 利用 抗体 的 适应 度 值 和 浓度 值 所 
共同 确定 的 选择 概率 ， 参 加 轮 盘 赌 选择 操作 ， 最 终 选择 出 新 一 代 种 群 。 

(3 ) 维持 多 样 性 。 在 遗传 算法 中 ， 适 应 度 高 的 个 体 在 一 代 中 被 选择 的 概率 高 ， 相 应 的 浓度 
高 ; 适应 度 低 的 个 体 在 一 代 中 被 选择 的 概率 低 ， 相 应 的 浓度 低 , 没有 自我 调节 功能 。 而 在 人 工 免 
疫 算法 中 , 除了 抗体 的 适应 度 , 还 引入 了 免疫 平衡 算 子 参与 到 抗体 的 选择 中 。 免疫 平 衡 算 子 对 浓 
度 高 的 抗体 进行 抑制 , 反之 对 浓度 低 的 抗体 进行 促进 。 由 于 免疫 平衡 算 子 的 引入 ,使 得 抗体 与 抗 
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体 之 间 的 相互 促进 或 抑制 ， 维 持 了 抗体 的 多 样 性 及 免疫 平衡 ， 体 现 了 免疫 系统 的 自我 调节 功能 。 

正 是 存在 着 与 遗传 算法 不 同 的 特点 ， 人 工 免 疫 算法 具有 分 布 式 、 并 行 性 、 自 学 习 、 自 适应 、 
自 组 织 、 鲁 棒 性 和 凸显 性 等 特点 。 与 传统 数学 方法 相 比 ， 人 工 免 疫 算法 在 进行 问题 求解 时 ， 与 进 
化 计算 方法 相似 , 不 需 依赖 于 问题 本 身 的 严格 数学 性 质 ， 如 连续 性 和 可 导 性 等 , 不 需要 建立 关于 
问题 本 身 的 精确 数学 描述 , 一 般 也 不 依赖 于 知识 表示 , 而 是 在 信号 或 数据 层 直 接 对 输入 信号 进行 
处 理 ， 属 于 求解 那些 难以 有 效 建 立 形 式 化 模型 、 使 用 传统 方法 难以 解决 或 根本 不 能 解决 的 问题 。 
人 工 免疫 算法 是 一 种 随机 概率 型 的 搜索 方法 ， 这 种 不 确定 性 使 其 能 有 更 多 的 机 会 求 得 全 局 最 优 
解 ; 人 工 免 疫 算法 又 是 利用 概率 搜索 来 指导 其 搜索 方向 , 概率 被 作为 一 种 信息 来 引导 搜索 过 程 朝 
搜索 空间 更 优化 的 解 区 域 移动 , 有 着 明确 的 搜索 方向 , 算法 具有 潜在 的 并 行 性 , 并 且 易于 并 行 化 。 


4.9 基于 MATLAB 的 进化 算法 


进化 算法 的 MATLAB 实现 ,除了 自己 编写 程序 外 ， 还 可 以 采用 MATLAB 中 的 遗传 算法 。 
使 用 此 工具 箱 ， 可 以 扩展 MATLAB 及 其 优化 工具 箱 在 处 理 优化 问题 方面 的 能 力 ， 可 以 处 理 传统 
的 优化 技术 难以 解决 的 如 难以 定义 或 不 便于 进行 数学 建 模 的 问题 ; 也 可 以 解决 目标 函数 较 复杂 的 
问题 ， 比 如 目标 函数 不 连续 或 具有 高 度 非 线性 、 随 机 性 以 及 目标 函数 不 可 微 等 。 

在 MATLAB 中 ,遗传 算法 工具 箱 中 的 函数 可 以 通过 命令 行 和 图 形 用 户 界面 (GUI ) 两 种 方 
式 来 调用 。 在 使 用 图 形 用 户 界面 时 ,通过 相应 窗 格 进行 遗传 算法 的 各 参数 的 设置 及 计算 。 在 用 命 
令 行 实现 遗传 算法 时 ， 则 通过 调用 相应 的 遗传 算法 函数 进行 算法 设置 并 完成 计算 。 

需要 注意 的 是 , 遗传 算法 工具 箱 中 的 优化 函数 总 是 使 目标 函数 最 小 化 , 如 果 想 要 求 出 函数 的 
最 大 值 ， 可 以 转化 求 取 函 数 的 负 函 数 的 最 小 值 。 

例 2.11 体重 约 70kg 的 某 人 在 短 时 间 内 喝 下 2 瓶 啤酒 后 ， 隔 一 段 时 间 测 量 他 的 血液 中 酒精 
含量 ( mg/100mL )， 得 到 表 4.3 的 数据 。 

表 4.3 酒精 在 人 体 血液 中 分 解 的 动力 学 数据 
本 可 
ET wl 
全 本 
as |w [sw lbhhh | 

根据 酒精 在 人 体 血 液 分 解 的 动力 学 规律 可 知 ， 血 液 中 酒精 浓度 与 时 间 的 关系 可 表示 为 

cl) =k(e” —e™) 


| 

















试 根据 表 中 数据 求 出 参数 gqg、r。 











解 : 
利用 MATLAB 的 遗传 算法 工具 箱 的 两 种 方法 求解 此 问题 。 首 先 编写 目标 函数 并 以 文件 名 
myfun 存盘 : 


function y=myfun (X) 

c=l30. 60 15 82 ,02577 .68 69. 598 51 S50 A S38 35. 28 .25 18 9. 计 2 0 7 7 1 
=00s257005 O07o 0 L520 2.5 0530 355 A440 4.5050 680 T7250 850 9:0 LONQO LL 
2 LS 0 LA 0 La0 L600ls 
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[r,s]=size(c) ;y=0; 


for i=1:s 


yy (C(I) x(I)* (ezp( x(2)*t (i)) exp( x(3)*C()) D2 gs 残 差 的 平方 和 
end 

1. 命令 行 方法 

在 MAILAB 工作 窗口 输入 下 列 命令 : 
>>Lb=[-1000, -10, -10]; $ 定 义 下 界 
>>Lu=[1000,10,10]; $ 定 义 上 界 


>>x min=ga (@myfun, 3, [], [], [], [],Lb, Lu) $ 要 注意 myfun 函数 应 在 MATLAB 搜索 途径 上 
得 到 结果 : x min =72.9706 0.0943 3.9407 
由 于 遗传 算法 是 一 种 随机 性 的 搜索 方法 , 所 以 每 次 运算 可 得 到 不 同 的 结果 。 为 了 得 到 最 终 的 
结果 ， 用 直接 搜索 工具 箱 中 的 fminsearch 函数 进行 验证 : 
>> fminsearch (emyfun,x min) s% 利 用 遗传 算法 得 到 的 值 作为 搜索 初 值 ， 以 减少 搜索 时 间 


ans =114.4325 0.1855 2.0079 gs 最 终结 果 


图 4.8 为 用 原始 数据 及 用 优化 结果 所 绘制 的 曲线 。 





血液 中 酒精 的 浓度 /(mg/100m1) 














8 
时 间 /h 


图 4.8 酒精 在 人 体 血液 中 分 解 的 动力 学 曲线 
从 这 个 例子 可 看 出 , 用 遗传 算法 求解 非 线 性 最 小 二 乘 问题 时 , 对 最 终 的 结果 要 用 其 他 方法 进 
行 验证 。 
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2. GUI 方 法 


在 较 高 的 MATLAB 版 本 中 ， 遗 传 算法 工具 箱 等 各 种 优化 方法 都 包含 在 optimtool ( 优化 用 户 
图 形 界面 )。 在 工作 窗口 输入 : 


>>optimtool 





打开 GUI， 在 Solver 窗口 选择 Ga-gnetic Algorithm， 在 Problem 框架 内 的 Fitness Function 窗 
口中 输入 @myfun， 在 number of variables 输入 变量 数目 3; 在 Constraints ( 约束 条 件 选 择 框 ) 的 
Bounds 的 Lower 窗口 中 输入 [一 1000,-10,-10]。 在 Upper 窗口 输入 [1000, 10, 10]。 在 Options ( 优 
化 参数 ) 中 的 所 有 参数 选 缺 省 值 。 

然后 单 击 Start 运行 遗传 算法 ， 其 中 一 次 的 结果 为 : 36.368 0.036 9.984 

例 2.12 求 下 列 函数 的 最 优 值 : 


























f(x,p)=xsin(4Ax)— ysin(4ry+x+1), x,y Ee[-1,2] 


解 : 
此 函数 的 图 形 见 图 4.9， 有 极 大 值 为 ( 1.6289,2 ) =3.3099。 








x Sin(4 Tx)-y sin(4 ry+n+1) 





图 4.9 函数 的 图 像 
用 进化 规划 算法 进行 求解 : 
>>zfun=inline ('x*sin (4*pi*x)-y*sin (4*pi*y+pi+1) '); ezmesh (zfun, 100) $ 作 函数 图 像 
>>myvar=[300 400 100];c best=myEP (myvar); 
>> Cc best 


Cbest =x TNO2090 Va 2 Fitness: S373099 
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例 2.13 ”利用 进化 策略 算法 对 渐进 回归 模型 R=a 一 py 的 参数 进行 估计 ， 实 验 估计 如 表 4.4 
所 示 。 
表 4.4 实验 数据 
沁 156 215 





y 0.309 0.331 
解 : 

根据 进化 策略 算法 的 原理 ， 可 编程 计算 得 到 以 下 的 结果 ( zuijie ): 

a=0.2734 B=0.2336 Y=0.9788 





>>u=50;lenda=350;a=2*rand (u, 1) ;b=rand (u, 1) ;c=rand (u, 1) ;A=zeros (u, 3) 7 
A=[a b c];sigma=0.5*ones (u,3); 
X=[12 23 40 92 156 215];y=[0.094 0.119 0.199 0.260 0.309 0.331]; 
yl=y (ones (u,1), :) ;xl1=x (ones (u,1), :) ;fl=zeros (u, 6); 
for i=1:u s 适 应 度 函 数 计算 

for j=1:6;f£1(i,j)=A(i,1)-A(i,2)*A(i,3)^xl1 (i,j);end 
end 
g=zeros (u,1) ;g=sum( (fl1-y1) .^2,2) 
[g, index]=sort (g) ;zuijie(1,:)=A (index (1),:);jie=g(1); sg 最 优 解 
t=0;AA=zeros (lenda, 3) ; sigmal=zeros (lenda, 3); 
while t<500 
if jie<le-6;break;end 

for k=1:lenda sg 混合 重组 
kl=randperm(u); RARA(k,:)=(R(kl(1)，:)+R(kl(2)，:)) ./27 

sigmal (k, :)=(sigma (kl(1),:)+sigma(kl(2)，:)) ./27 


end 


r=1;rl=1;ra=randn (lenda, 3) ;ral=randn (lenda, 3) ;sigmal=sigmal.*exp (rl*ral+r*ra); 


AA=AA+sigmal .*ra; $ 高 斯 变异 
for i=1:1lenda % 边 界 处 理 


if AA(i,1)>2||AA(i,1)<0;AA(i,1)=2*rand;end 
if AA(i,2)>1||AA(i,2)<0;AA(i,2)=rand;end 
if AA(i,3)>1||AA(i,3)<0;AA(i,3)=rand;end 
end 
yyl=y (ones (lenda,1),:); 
Xxl=x (ones (lenda, 1), :);G=zeros (lenda, 1) ;ffl=zeros (lenda, 6); 
for i=l1:lenda 


for j=1:6;ff]1 (i,j)=AA(i,1)-AA(i,2)*AA(i, 3)^xx]l (i,j) ;end 


end 


G=sum( (ffl-yy1) .^2,2); 


[G, index]=sort (G) ;zuijie(1,:)=AA(index(1),:);jie=G(1); 


A=AA (index (1:u), :);sigma=sigmal (index (1:u),:);$(u, 和 A) 策略 


t=t+1; 


end 


例 2.14” 拟 对 陕西 省 进行 喷灌 区 划 ， 其 一 级 区 预 分 3 类 。 从 陕 南 、 关 中 、 陕 北 地 区 选择 27 
种 作物 作为 样本 , 数据 如 表 4.5 ( 各 变量 代表 的 物理 意义 及 作物 名 称 从 略 ),。 试用 基于 动态 疫苗 提 


取 的 疫苗 遗传 算法 对 其 进行 分 类 。 





表 4.5 原始 数据 
样本 编号 区 X2 XxX 
1 0.2 1903 
2 10.88 208.92 
3 19.2 146.92 
4 卫 Ts 146.05 
5 26.4 6.25 
6 26.4 223.1 
ZF 南 26.4 203.1 
8 12.29 -17.29 
9 6.91 一 5.41 
10 3.0 0.71 
11 $2 15.48 
12 关 3.0 68.85 
13 39.6 219.9 
14 39.6 189.9 
15 申 39.6 209.9 
16 4.95 67.05 
17 5.2 20 
18 5.2 -A 
19 $2 一 8.00 
20 21.9 2 7.12 
21 x $35 5.2 一 2.80 
22 14.7 4.4 一 13.70 
23 8.48 $2 一 3.66 
24 在 132 5.2 92.72 
25 107.2 5 65.42 
26 130.0 8.25 127.25 
27 120.0 8.25 117.75 
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解 : 
所 谓 动态 疫苗 是 指 建立 动态 的 疫苗 库 (数量 可 以 固定 ， 也 可 以 是 变化 的 )， 将 每 一 代 的 最 优 
个 体 放 入 疫苗 库 中 , 在 每 次 向 疫苗 库 中 加 入 新 的 疫苗 后 ,都 要 按 适 应 度 对 疫苗 进行 排序 ,淘汰 适 
应 度 较 小 的 疫苗 。 接种 时 随机 选取 动态 疫苗 库 的 疫苗 , 对 子 代 种 群 进行 接种 , 随机 指定 某 位 基因 ， 
依据 选择 疫苗 中 相应 的 基因 来 修改 抗体 对 应 基因 位 上 的 值 。 

疫苗 遗传 算法 求解 聚 类 时 ， 随 机 指定 各 样本 的 类 号 ， 再 进行 交叉 、 变 异 、 接 种 等 操作 ,得 到 
新 的 分 类 方式 ， 并 根据 适应 度 的 变化 确定 最 佳 的 分 类 方式 。 

据 此 ， 可 以 编程 计算 并 得 到 以 下 的 结果 ( 其 中 的 一 次 结果 ): 
>>a=dyICRA (myvar) 
patceorms TLL 3 UL So A 2 

















fitness: 37:8777 


例 2.15 利用 Memetic (基因 ) 算法 求解 下 列 的 TSP 问题 。 其 中 城市 坐标 如 表 4.6 所 示 。 
表 4.6 各 城市 的 坐标 








为 了 提 是 高 算法 全 局 极 值 的 搜索 能 力 , 本 题 对 算法 中 的 交叉 算 子 作 如 下 改进 : 随机 选择 两 个 个 
体 , 并 进行 交叉 , 产生 一 个 后 代 ， 对 其 进行 局 部 优化 ; 对 后 代 和 当前 最 优 个 体 进行 交叉 ,产生 一 
个 后 代 ， 对 其 进行 局 部 优化 。 

据 此 ， 可 编程 计算 ， 得 到 以 下 结果 。 图 4.10 为 该 问题 的 解 。 从 运行 结果 分 析 ， 通 过 这 样 的 
改进 ， 可 以 很 快 地 找到 最 优点 。 

>>myval=[80 3 0.6 0.05 300]; 

>>popsize=myval (1) ; searchnum=myval (2) ;pc=myval (3) ;pm=myval (4) ;iter max=my 
val; 

>> [yx]=memetic TSP (popsize,searchnum,pc,pm,iter max) 


y=30.8013 3 

















图 4.10 问题 的 解 
例 2.16 利用 量子 遗传 算法 求解 下 列 函 数 的 极 值 : 





+ A )+cos(2 克 : 
minf(%)=-200 | 2 er) +2271282 |<5 
解 : 
此 函数 是 一 个 多 峰 函 数 ， 其 全 局 有 一 极 小 值 : 


f(0,0)=0 
根据 量子 遗传 算法 的 原理 ， 可 编程 计算 得 到 以 下 的 结果 : 
>>myval=[20 0.05 2000 16]; 
>>popsize=myval (1) ;pm=myval (2) ;iter max=myval (3) ;num=myval (4); 
>> [y_max,x max]=QGA (popsize,pm,iter max,num) 


y_max =0.0207 x max=-0.0114 0.0002 


例 2.17 利用 人工 免疫 算法 对 下 列 函数 寻 优 : 


时 
max een- | +(x +y) -5.12<x,y<5.12 


3 
0.05+(x*: +y) 


解 : 
此 函数 的 图 形 见 如 图 4.11 所 示 , 在 (0.0 ) 处 有 极 大 值 3600。 
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(3((0.05+x2+y3)2+(x2+y2)2 





图 4.11 所 求 函 数 的 图 形 


在 使 用 人 工 免 疫 算法 时 要 解决 以 下 问题 : 

(1 ) 抗体 个 体 的 编码 : 虽然 可 以 采用 二 进 制 编码 ， 其 搜索 能 力 较 强 但 需要 频繁 进行 交换 的 
编码 与 解码 ， 计 算 工作 量 大 且 只 能 产生 有 限 的 离散 值 ， 所 以 在 此 采用 十 进 制 ( 实数 编码 )， 它 利 
用 如 下 线性 变换 进行 编码 : 

x =aj +uo())(b; —aj) 
把 初始 变化 区 间 [ai, 节 第 j 个 优化 变量 六 映射 到 [0.1] 区 间 上 的 实数 w0G)， 即 基因 编码 。 
(2 ) 抗体 浓度 的 计算 : 在 计算 中 一 般 根据 以 下 的 标准 判断 抗体 的 相似 性 : 
五 <lte 
J 
其 中 : s 为 一 个 较 小 的 正 数 ， 如 为 0.02 表示 抗体 ; 与 抗体 7 之 间 的 相似 度 有 98%。 
(3 ) 疫苗 的 建立 及 接种 : 不 同 的 问题 可 能 有 不 同 的 疫苗 ， 所 以 要 根据 具体 的 先 验 知识 来 确 
定 疫苗 。 在 此 为 了 使 其 算法 具有 更 加 的 通用 性 ， 根 据 以 下 方法 建立 疫苗 : 
@ 建立 疫苗 库 : 一 般 将 数目 为 20% ~ 40% 和 群体 规模 的 第 二 1 代 和 迭 代 过 程 中 所 产生 的 较 优 抗 
体 作 为 疫苗 库 。 

@ 根据 轮 盘 赌 选择 策略 从 疫苗 库 中 选择 出 某 较 优 的 个 体 作为 疫苗 。 

图 将 疫苗 接种 于 选择 的 个 体 ， 此 时 可 以 将 疫苗 全 部 蔡 换 被 选择 个 体 基 因 位 ， 也 可 以 替换 部 
分 基因 位 。 

根据 人 工 免疫 算法 的 原理 ， 编 程 进行 计算 ， 并 得 到 以 下 的 结果 ( 其 中 一 次 的 结果 ): 


>>zfun=inline(' (3/(0.05+X^2+Y^2) ) ^2+ (X^2+Y^2)^27) ;7 ezmesh (zfun,100); 











>>axis([-10 10 -10 10 0 4000]) ;myvar=[300 0.4 0.05 300 2]; 
>>a=myICA (myvar) 
Var: [5.6320e-004 -7.6800e-004] fitness: 3.5999e+003 
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统计 分 析 涉 及 数据 收集 、 描 述 及 分 析 推 理 等 步骤 , 虽然 从 传统 意义 上 讲 , 统计 分 析 方 法 不 是 
数据 挖掘 ,但 很 多 统计 概念 是 数据 挖掘 技术 的 基础 , 在 解决 数据 挖掘 问题 时 ， 有 时 会 先 使 用 统计 
方法 去 试 着 解决 问题 ， 或 者 用 统计 分 析 方 法 进行 数据 预 处 理 。 

假设 检验 、 回 归 分 析 以 及 方差 分 析 是 经 典 统计 学 中 的 主要 内 容 。 假 设 检 验 是 一 种 用 于 “证 实 ” 
某 种 假设 或 论断 的 方法 ; 回归 分 析 是 探索 研究 对 象 的 模型 和 预测 未 知 特征 的 方法 ; 方差 分 析 是 判 
断 不 同 因素 之 间 差 异 的 方法 ， 它 将 所 有 差异 分 解 成 系统 差异 和 随机 差异 。 


5.1 假设 检验 


假设 检验 中 有 二 类 重要 问题 ， 第 一 个 是 根据 样本 的 信息 判断 总 体 分 布 是 否 具 有 指定 的 特征 ; 
第 二 个 是 在 估计 某 未 知 参数 8 时 , 除了 求 出 它 的 点 估计 外 , 还 希望 在 一 定 的 置信 水 平 上 估计 出 一 
个 范围 ， 即 8 的 置信 区 间 。 


5.1.1 随机 误差 的 判断 


随机 误差 的 大 小 可 用 试验 数据 的 精密 度 来 反映 ,而 精密 度 的 高 低 可 用 方差 来 量度 , 所 以 对 测 
试 结果 进行 方差 检验 ， 即 可 判断 各 试验 方法 或 试验 结果 的 随机 误差 之 闻 的 关系 。 
1. xX? 检验 
外 检验 适 用 于 单个 正 态 总 体 的 方差 检验 , 即 在 试验 数据 的 总 体 方差 已 知 的 情况 下 ,对 试验 数 
假设 有 一 组 数据 x1,x2,… x 服从 正 态 分 布 ， 则 统计 量 
鱼 加 一】 


= 5S2 
2 Cn-D 


对 于 给 定 的 显著 性 水 平 ， 可 与 由 相应 的 x 分 布 表 查 得 的 临界 值 进 行 比较 ， 就 可 判断 两 方差 之 间 
有 无 显著 差异 。 显 著 性 水 平 a 一 般 为 0.01 和 0.05。 
双 尾 检验 时 ， 若 < 刀 < we ， 则 可 判断 该 组 数据 的 方差 与 原 总 体 方差 无 显著 差异 ， 否 则 
2 要 








nl 2 nly 
有 显著 差异 ， 并 且 标 准 差 在 1a + 上 人 人 区 辣 因 | 2 和 | 
a a 


单 尾 检验 时 ， 若 好 > 好。 ，， 则 判定 该 组 数据 的 方差 与 原 总 体 方差 无 显著 性 减 小 ,否则 有 
显著 碱 小 ,并 且 标 准 差 中 在 1 -水 平 上 的 置信 区 间 为 = | 此 为 左 尾 检验 。 

车 必 < 大 ,1， 则 判定 该 组 数据 的 方差 与 原 总 休 方 关 无 显 车 增 大 ， 否 则 有 显 车 增 大 ， 并且 标 
准 差 中 在 1-a 水 上 的 人 5 -| 此 为 丰 必 检验 。 








如 果 对 所 研究 的 问题 只 需 判 断 有 无 显著 差异 , 则 采用 双 尾 检验 ; 如 果 所 关心 的 是 某 个 参数 是 
否 比 某 个 值 偏 大 ( 或 偏 小 )， 则 宣 采 用 单 尾 检验 。 
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2. 上 检验 


F 检 验 适用 于 两 组 具有 正 态 分 布 的 试验 数据 间 的 精密 度 的 比较 。 
设 有 两 组 试验 数据 x1x2,… en 与 yxy2,… ym2， 两 组 数据 都 服从 正 态 分 布 , 样本 方差 分 别 为 
和 s2 ， 则 统计 量 





kd 
5) 
p==~Fm=Ly= 
Wh 


对 于 给 定 的 检验 水 平 a ， 将 所 计算 的 统计 量 F 与 查 表 得 到 的 临界 值 比较 ， 即 可 得 出 检验 结论 。 
双 尾 检验 时 ， 若 下 <(m -bm -D<F<Falm-lbm-D， 表示 怠 和 ?无 显著 性 差异 ,否则 
. Ef 


有 显著 差异 。 

单 尾 检验 时 ， 若 F<1， 且 五 > 五 On Lm 一 ])， 则 可 判断 s2 比 s? 无 显著 减 小 ， 否 则 有 显著 
减 小 ,此 为 左 尾 检验 ; 若 F>1， 且 F< (mLmw 一， 则 可 判断 过 比 号 无 显著 性 增 大 ， 否 则 
有 显著 增 大 ， 此 为 右 尾 检验 。 

5.1.2 ”系统 误差 的 检验 

在 相同 条 件 下 的 多 次 重复 试验 下 不 能 发 现 系统 误差 ,只 有 改变 形成 条 件 误差 的 条 件 ,才能 
发 现 系统 误差 。 对 系统 结果 必须 进行 检验 ， 以 便 能 及 时 减 小 或 消除 系统 误差 ， 提高 试验 结果 的 
正确 度 。 

若 试 验 数 据 的 平均 值 与 真 值 的 差异 较 大 , 就 认为 试验 数据 的 正确 性 不 高 , 试验 数据 与 试验 方 
法 的 系统 误差 较 大 ， 所 以 对 实验 数据 的 平均 值 进行 检验 ， 实 际 上 是 对 系统 误差 的 检验 。 


1. 平均 值 与 给 定 值 比较 


如 果 有 一 组 试验 数据 服从 正 态 分 布 ， 要 检验 这 组 数据 的 算术 平均 值 是 否 与 给 定 值 有 显著 差 
异 ， 则 检验 统计 量 





式 中 :， 马 是 试验 数据 的 算术 平均 值 ; s 是 n(n<30) 个 各 试验 数据 的 样本 标准 差 ; po 是 给 定 值 
(可 以 是 真 值 、 期 望 或 标准 值 )， 根 据 给 定 的 显著 性 水 平 w， 将 计算 的 值 与 临界 值 比较 ， 即 可 得 


双 尾 检验 时 ， 若 |t|> ta。 ，， 则 可 判断 该 组 数据 的 平均 值 与 给 定 值 无 显著 性 差异 ， 否 则 就 有 


显著 性 差异 ， 并 且 均 值 在 1- 本 EF 的 多 间 为- , 喜 . 瑟 + .可 
左 尾 检验 时 ， 若 <0， 且 +> -tz 或 |1|< izw4 ， 则 可 判断 该 组 数据 的 平均 值 与 给 定 值 无 显著 
性 差异 ， 否 则 有 显著 减 小 ， 并 且 均 值 在 1 -水平 上 的 置信 区 问 为 | -tan - |. 


n 


o 
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右 尾 检验 时 ， 若 20， 且 + < 二， ， 则 可 判断 该 组 数据 的 平均 值 与 给 定 值 无 显 车 增 大 ， 否 则 
有 时 革 讲 大 ， 并 是 均值 在 1 水平 上 的 置信 区 间 为 | 元- 六 -t|。 


2. 两 个 平均 值 的 比较 


设 有 两 组 试验 数据 ，xi,x2,… zx 与 my mz， 两 组 数据 都 服从 正 态 分 布 ， 根 据 两 组 数据 的 
方差 是 否 存 在 显著 差异 ， 可 分 为 以 下 两 种 情况 进行 分 析 。 
如 果 两 组 数据 的 方差 无 显著 差异 ， 则 统计 量 


xX) 


其 中 : sw 为 合并 标准 差 ， 其 计算 公式 为 


人 (m —lD)s? +(n, —1)s? 
” m+n,—2 


如 果 两 组 数据 的 精密 度 或 方差 有 显著 差异 ， 则 统计 量 





其 中 
昂 (s2 /n+s2 /n,) 中 
(2 (Cs3 1 
m+l m+l 
根据 给 定 的 显著 性 水 平 a， 将 计算 的 + 值 与 临界 值 比较 ， 即 可 得 到 检验 结论 。 
双 尾 检验 时 ， 若 1:kK ta ， 则 可 判断 两 平均 值 无 显著 差异 ， 否 则 就 有 显著 差异 。 
Fi 


单 尾 检 验 ( 左 尾 检验 ) 时 ， 若 <0 且 1> -fay 或 |+|< tg ， 则 可 判断 平均 值 1 与 平均 值 2 无 
显著 减 小 ， 否 则 有 显著 减 小 。 

单 尾 检验 ( 右 尾 检验 ) 时 ， 若 520， 且 |+|< ty 可 判断 平均 值 1 较 平均 值 2 无 显 车 差异 ， 否 
则 有 显著 增 大 。 


3. 成 对 数据 的 比较 


在 这 种 试验 中 ,试验 数据 是 成 对 出 现 的 , 除了 被 比较 的 因素 之 外 ,其 他 条 件 相同 。 例 如 用 两 
种 分 析 方法 或 用 两 种 仪器 测定 同一 来 源 的 样品 。 
成 对 数据 的 , 是 把 成 对 数据 之 差 的 总 体 平均 值 与 零 或 其 他 指定 值 进 行 比较 , 采用 的 统计 量 为 
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_ qd-qo 


时 ~L 
ey / 本 同 nl 


2 





式 中 : do 可 取 零 或 给 定 值 ; 4 是 成 对 测定 值 之 差 的 算术 平均 值 ， 即 
>G 一 芒 ) Sa, 


= 


n n 
sg 是 n 对 试验 值 之 差 的 样本 标准 差 ， 即 


Ya -a 
4|i=l 


对 于 给 定 的 显著 性 水 平 ,如果 |zl< +。， 则 成 对 数据 之 间 不 存在 显著 的 系统 误差 ， 否 则 两 组 
1 


数据 之 问 存在 显著 的 系统 误差 。 

应 注意 的 是 , 成 对 试验 的 自由 度 为 "-1， 而 分 组 试验 时 的 自由 度 为 m+m-2, 后 者 自由 度 较 
大 ,所 以 统计 检验 的 灵敏 度 较 高 。 

一 般 来 讲 ， 当 所 研究 因素 的 效应 比 其 他 因素 的 效应 大 得 多 , 或 其 他 因素 可 以 严格 控制 时 , 采 
用 分 组 试验 比较 合适 ， 否 则 可 采用 成 对 试验 。 


5.2 回归 分 析 


在 实际 应 用 中 , 常常 要 面 对 不 确定 的 预测 问题 ， 如 产品 销量 ( 或 销售 额 ) 的 预测 是 一 个 各 企 
业 都 关注 的 、 不 确定 的 问题 。 产 品 的 销量 受 多 种 因素 变化 的 影响 ， 包 括 产品 质量 、 价 格 、 价 值 、 
折扣 、 信 誉 、 品 牌 、 偏 好 等 ， 也 即 销量 了 与 影响 因素 x; (i= 1,2,…,k) 的 关系 可 以 表示 为 
Y=P+PBa+-+PBxr+e 
式 中 : 8 是 除 太 外 的 其 他 不 确定 因素 。 对 于 这 个 问题 的 解决 ， 需 借助 于 回归 分 析 。 
回归 分 析 ( Regression Analysis ) 是 一 种 处 理 变 量 之 间 相 关 关 系 最 常用 的 统计 方法 , 用 它 可 以 
寻找 隐藏 在 随机 性 后 面 的 统计 规律 ， 即 确定 回归 方程 ， 并 通过 检验 确定 回归 方程 的 可 信 度 。 


5.2.1 一 元 线性 回归 分 析 
1. 一 元 线性 回归 的 数学 模型 
一 元 线性 回归 又 称 直线 拟 合 ， 是 处 理 两 个 变量 间 关 系 的 最 简单 模型 ， 其 回归 模型 为 
Y=R+Brnte (e~N(0,0°) Y~ NB +Bn,0) 


上 式 表 明 , 因 变量 了 的 变化 由 两 部 分 组 成 :一 部 分 是 由 于 自 变 量 x 的 变化 而 引起 的 线性 变化 部 分 ; 
另 一 部 分 是 由 于 其 他 随机 因素 引起 的 变化 部 分 ， 即 不 确定 量 s。 其 中 fo、 称 为 回归 系数 。 
回归 分 析 就 是 采用 合适 的 方法 求 得 以 下 的 回归 方程 ， 并 进行 检验 。 
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了 = 局 + 
通常 采用 最 小 二 乘法 求解 回归 系数 房 、 房 ， 即 求解 下 列 最 小 值 问题 
min Q(B)= YY -Po + Bis)F 
可 以 采用 多 种 方法 解 这 个 最 优 问题 ， 最 常用 的 是 微分 法 。 可 以 得 到 回归 系数 的 计算 公式 
bo =Y— Bx 


n nn n 


> DD 


所 = = ni il 


Yl 


1 nil 








2. 回归 方程 的 显著 性 检验 


通过 以 上 方法 得 到 的 回归 方程 不 一 定 总 有 意义 。 因 此 需要 对 得 到 的 回归 系数 做 显著 性 检验 。 
回归 系数 的 显著 性 检验 有 多 种 方法 ， 常 用 的 是 以 下 几 种 。 
(1) 检验 -方差 分 析 。 
记 ;， S$=T0-7, s=70-7, s8=30;-7) 
i=1 


i=1 i=1 
有 关系 式 : 52 = S&+S2 ， 其 中 S2 称 为 残 差 平方 和 ， 88 称 为 回归 平方 和 。 
考虑 检验 假设 : Ho: b=0; 酚 : 5b#0， 在 孔 为 真 时 ， 有 
S2/1 S2 
- 豆 pe -~ 

对 给 定 的 显著 性 水 平 a， 当 玉宇 (1,n 一 2) 时 ， 可 以 认为 b=0 不 真 ， 称 方程 是 显著 的 ; 反之 , 方 
程 为 不 显著 。 

通常 , 若 五 三 有 01(1,n 一 2) ， 则 为 高 度 显 著 ; 若 瓦 s(Ln-2) 和 下 乏 五 m(dLn-2) ， 则 为 显著 ; 
若 F< Foos(l,n—2) 则 为 不 显著 。 

(2 ) 相关 系数 + 检验 法 。 

相关 系数 + 是 反映 变量 了 与 了 呈 线 性 关系 程度 的 一 个 量度 指标 , 其 取 值 范围 是 | 长 1， 当 接 
近 于 1 时 ,表明 变量 对 与 了 密切 线性 相关 ; 当 接 近 于 0 时， 则 这 两 者 之 间 为 非 线 性 相关 。 

样本 相关 系数 的 计算 公式 为 





六 -ad 


(Ee -Ee -Dy 
il i 


通过 查 表 可 得 ， 由 自由 度 (mn-2 ) 及 显著 性 水 平 决定 的 相关 系数 显著 性 临界 值 ro, 若 |r 上 7 , 接 
受 原 假设 轴 ， 即 相关 性 不 显著 ,否则 在 a 水平 上 显著 。 


和 三 
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(3 ) 有 与 户 的 检验 。 
检验 po 的 统计 量 为 
f= Bb ~t(n—2) 
>G- | 
i=1 
人 + ) 
n— n pe 
i=1 
o 的 标准 差 为 
Sa- | 
Sp = | 之 人 
1 一 2 n > _x) 
i 


po 的 (1-a) x100% 的 置信 区 间 为 


[Bo -taSp, ,Po +taSp, ] 


检验 pi 的 统计 量 为 





i=1 


记 的 标准 差 为 


S5 = 


有 的 (1 一 a) x100% 的 置信 区 间 为 


D0 3) 


A ~it(n—2) 






(n— DX 一 2 
i=1 






F073) 
(= 


DF- 
A 


[Bo -taS,. Po +taS,] 


3. 利用 回归 方程 进行 预测 


利用 已 通过 检验 的 回归 方程 ， 就 可 以 用 来 预测 ， 即 确定 自 变量 的 某 一 个 x 值 时 求 出 相应 的 
因 变 量 了 的 估计 值 ， 其 中 又 可 以 分 为 点 预测 和 区 间 预 测 。 


(1) 点 预测 。 
将 自 变量 值 ma 代入 回归 方程 式 得 到 的 
点 预测 。 
(2 ) 区 间 预 测 。 





因 变量 值 》。， 作 为 与 相对 应 的 y 的 预测 值 ， 就 是 


对 于 与 芳 相 对 应 的 y。 ， 包 与 功 之 间 总 存在 一 定 的 抽样 误差 。 在 回归 模型 的 假设 条 件 下 , 有 
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op)~N O00rl+ Cao . 
a CAE) 
因此 ，y 的 概率 为 1 -a 的 预测 区 间 为 
1, (Co 一 七 


在 实际 应 用 时 ， 一 般 常 采用 以 下 的 预测 区 间 
当 a=0.05 时 ，y 的 95% 的 预测 区 间 为 3。 二 25, 。 
当 a=0.01 时 ，y 的 95% 的 预测 区 间 为 p。 35, 。 


式 中 5, = 一 一 。 
n—2 


5.2.2 ”多 元 线性 回归 分 析 


1. 多 元 线性 回归 模型 

多 元 线性 回归 模型 是 指 有 多 个 自 变量 的 线性 回归 模型 , 用 于 揭示 因 变量 与 其 他 多 个 自 变 量 之 
间 的 线性 关系 ， 其 数学 模型 为 

Y=Ph+Bn +Pxy+---+Ppxp+e 
多 元 线性 回归 分 析 就 是 求 得 以 下 的 回归 方程 ， 并 进行 相应 的 检验 。 
p=po+Pn + Pn + Boxy 

与 一 元 线性 回归 分 析 一 样 , 可 以 采用 最 小 二 乘 方法 及 其 他 的 优化 方法 求 得 多 元 线性 回归 方程 
式 中 的 各 个 回归 系数 。 

一 般 地 ， 当 xix2,… xpy ) 的 试验 数据 为 (xiuxip, xp) ,二 1,2,…,n 时， 设 

二 (ng 加) PF (jp ) ™, 


Lp Np 
| 
21 区 
E= (e162,...s5p ) T ,于 =|. Sr 2 
| Xp 


则 有 


p(X 辣 让 证 办 三世 记 尖 (天 让 交 你 
2. 回归 方程 显著 性 检验 
仍然 利用 偏差 平方 和 分 解 公式 
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GO 
即 : S2 =S&+S2o 
回归 方程 显著 性 检验 ， 是 关于 与 所 有 变量 的 线性 关系 检验 ， 用 假设 表示 为 


Ho: Bi=ps= -… =po=0 
在 名 为 真 时 ， 表 明 随机 变量 y 与 x1x2,… wip 之 间 的 线性 回归 模型 不 合适 ， 此 时 的 统计 量 为 
__ Ss/p 
Ss2/(n-p-)) 


对 于 给 定 的 数据 , 计算 五 值 ,再 由 给 定 的 显著 性 水 平 , 查 五 分 布 表 , 得 临界 值 五 (P,”-P-D， 
当 F> 五 e(P,n-P-D 时 ， 拒绝 原 假设 ， 即 回归 方程 是 显著 的 。 


3. 回归 系数 显著 性 检验 


对 回归 系数 的 线性 显著 性 检验 ， 是 关于 y 与 某 个 变量 x 的 线性 关系 的 检验 ， 用 假设 表示 为 
Ho: fi=0。 当 二 1,2,…p 时 ,分别 关于 y 对 p 个 变量 进行 检验 。 若 接受 原 假设 , 则 y 关 于 * 线 性 
关系 不 显著 ,否则 显著 ,此 时 统计 量 为 


式 中 : 5= = 0- ; ou 是 矩阵 (CD =(cy) 的 对 角 线 元 素 ; 7, 广 1.2,…p。 


当 |T re pd 时 ,拒绝 原 假设 ， 即 回归 系数 是 显著 的 。 
Ei 








4. 拟 合 检验 


2 
定义 系数 -党 


回归 拟 合 的 效果 越 好 ; 忆 超 接近 0， 表 明 回 归 拟 合 的 效果 越 差 。 
5. /的 预测 区 间 


-半数 当 R? 越 接近 1, 表明 随机 因素 影响 引起 的 误差 越 小 ， 


当 Y=p+Bn+Bxo+-…+PBpxp+s 时 ， 由 于 不 确定 因素 的 影响 ,只 能 通过 y 对 了 进行 区 
间 估 计 。 


令 


7-? 


CT ns, i 
T= Pel 入 


SE 3 | 5S2 
一 一 一 1+ 天 
on-p-)) j=1i=1 ” (n-p-D 
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则 ，T~txz-zp-D， 且 了 的 1-a 预测 区 间 的 左右 端点 为 


流 ppP Se 
y-fian(n—p-) 1+ 2 ca 


1 1 go’(n-p-l) 








~ pp Sz 
p+tia(n—p-—1), 1 二 > > can rr 


生生 n-p-D 
5.2.3 ” 非 线 性 回归 分 析 
在 实际 问题 中 , 变量 之 间 通 常 不 是 直线 关系 , 其 中 的 期 望 函数 通常 需要 根据 问题 的 物理 意义 
或 数据 点 的 散布 图 预先 定义 ， 它 可 以 是 多 项 式 函数 、 分 式 、 指 数 函数 以 及 三 角 函 数 等 。 对 于 这 类 
回归 ,可 以 有 两 种 方法 : 一 是 通过 变量 蔡 换 把 非 线性 方程 加 以 线性 化 ,然后 按 线性 回归 的 方法 进 
行 拟 合 ， 二 是 通过 适当 的 优化 方法 对 非 线性 方程 直线 进行 拟 合 。 
1. 常用 的 可 转化 为 一 元 线性 回归 的 模型 


常用 的 非 线性 转换 函数 有 妇 、 冯 、y2、lny、-17、-102 等 。 

(1) 使 x 上 升 y 下降 的 转换 。 

对 于 图 5.1 的 情况 ， 可 以 对 x 进行 六、x、… 的 转换 ， 或 对 y 进行 Iny、-1/… 的 转换 。 
(2) 使 x 下 降 y 上升 的 转换 。 

对 于 图 5.2 的 情况 ， 可 以 对 x 进行 Inx、-Lx… 的 转换 ,或 对 y 进行 六 、y… 的 转换 。 


Y Y 


本 














bp >X 











图 5.1 x 上 升 y 下 降 图 5.2 x 下 降 y 上升 
(3) 使 x 上 升 y 上升 的 转换 。 
对 于 图 5.3 的 情况 ， 可 以 对 x 进行 好、 妇 、… 的 转换 ， 或 对 ?进行 闪 、 妇 … 的 转换 。 
(4) 使 x 下降 y 下 降 的 转换 。 
对 于 图 5.4 的 情况 ， 可 以 对 x 进行 hx、 一 Lx… 的 转换 ,或 对 y 进行 Iny、 一 1/y… 的 转换 。 
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> 人 >X 





图 5.3 x 上 升 y 上 升 图 5.4 x 下 降 y 下 降 
以 上 变换 可 以 用 “ 脱 胀 规则 ”来 描述 ， 即 利用 “ 脱 胀 规 则 ”来 寻求 变换 以 达到 变量 之 间 存 在 
线性 关系 ， 其 步骤 如 下 : 


将 原始 数据 曲线 图 与 图 5.5 进行 比较 ， 得 到 x 与 y 表达 阶梯 进 阶 方向 ， 然 后 根据 变量 在 表达 
阶梯 的 位 置 就 可 以 得 到 变量 变换 方式 。 





图 5.5 膨胀 规则 : 为 实现 线性 关系 ， 进 行 启发 式 的 变量 变换 
表达 阶梯 包括 下 列 对 任何 变量 :的 变换 集合 : 
PY mn) Mine 

例如 将 某 一 原始 数据 曲线 与 图 5.5 比较 得 到 曲线 的 类 型 为 “x 下 y 下 ”， 即 表明 应 该 通过 将 x、 
上 从 现在 的 阶梯 位 置 下 降 一 个 或 多 个 点 来 变换 变量 x、y。 所 有 未 变换 变量 原始 的 位 置 为 7。 

综 上 所 述 , 许多 曲线 都 可 以 通过 变换 化 成 直线 , 于 是 可 以 按 直 线 拟 合 的 方法 来 处 理 。 对 变换 
后 的 数据 进行 回归 分 析 , 之 后 将 所 得 的 结果 再 代 回 原 方程 。 因而 ,回归 分 析 是 对 变换 后 的 数据 进 
行 , 所 得 结果 仅 对 变换 后 的 数据 来 说 是 最 佳 拟 合 ， 当 再 变换 原 数据 坐标 时 ,所 得 的 回归 曲线 严格 
地 说 并 不 是 最 佳 拟 合 ， 但 一 般 情况 下 拟 合 程度 还 是 令 人 满意 的 。 


2. 一 元 多 项 式 回归 








不 是 所 有 的 一 元 非 线 性 函数 都 能 转换 成 一 元 线性 方程 , 但 任何 复杂 的 一 元 连续 函数 都 可 用 多 
项 式 近似 表达 ， 因 此 对 于 那些 较 难 直线 化 的 一 元 函数 ， 可 用 下 列 多 项 式 来 拟 合 。 


p=PB +BxtpPx ?+--+p,x" 
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同样 ， 通 过 变量 转换 或 直接 多 项 式 拟 合 的 方法 可 以 求 出 上 述 方 程 的 各 回归 系数 。 

虽然 多 项 式 的 阶 数 越 高 , 回归 方程 与 实际 数据 的 拟 合 程度 越 高 ,但 阶 数 越 高 , 回归 计算 过 程 
中 的 舍 入 误差 的 积累 也 越 大 ,所 以 当 阶 数 n 过 高 时 ,回归 方程 的 精确 度 反而 会 降低 ,甚至 得 不 到 
合理 的 结果 ， 故 一 般 取 n=3~4。 


5.2.4 ”虚拟 及 离散 变量 回归 模型 


在 回归 分 析 的 实际 应 用 中 , 还 会 遇 到 虚拟 及 离散 变量 为 自 变量 的 情况 。 虚 拟 变量 是 指 不 取 实 
际 值 的 自 变 量 ， 如 性 别 、 国 籍 、 种 族 、 颜 色 、 学 位 、 政 治 动乱 、 政 府 更 挝 等 。 如 要 在 回归 模型 中 
反映 这 些 因素 的 影响 , 可 以 引入 虚拟 变量 ， 人 为 地 赋予 这 些 因素 一 定数 据 。 例 如 可 以 引入 下 列 变 
量 至 回归 方程 中 。 








第 :个 样本 来 自 男性 
0 第 个 样本 来 自 女性 
当然 , 也 可 以 赋予 其 他 值 , 主要 取决 于 实际 问题 及 计算 方便 性 。 考 虑 虚拟 变量 后 的 回归 方程 可 以 
写成 下 式 ， 其 建 模 方法 与 一 般 回归 方法 相同 。 
=P+BD; + +hX; 
如 果 虚 拟 变量 有 两 种 以 上 的 取 值 , 则 可 以 使 用 多 个 虚拟 变量 ,如 学 位 可 以 用 以 下 两 个 虚拟 变量 : 
1 学 土 1 硕士 
mb 其 他 = 博士 
在 地 质 、 医 学 、 经 济 、 生 物 等 科学 领域 内 存在 着 大 量 的 定性 变量 , 对 这 些 定性 变量 按 一 定 的 
方法 数量 化 就 可 得 到 离散 变量 ， 因 此 建立 离散 变量 的 回归 预报 方程 是 一 个 不 可 回避 的 问题 。 
在 建 模 过 程 中 , 称 离散 变量 的 不 同 取 值 为 它 的 不 同 水 平 。 考 虑 离散 变量 后 的 回归 方程 如 下 所 示 : 





























亚 五 。 
We +2 SUB + i=L2,n 


用 第 次 二 给 第 个 自 变量 取水 平时 
式 中 : a 其 他 
平 三 时 得 到 的 试验 结果 ; 为 第 7 个 自 变量 水 平 的 数目 。 

以 上 模型 的 解法 ， 可 以 将 其 化 成 方差 分 析 的 模型 ， 从 而 可 得 各 回归 系数 。 具 体 计算 过 程 参见 
相关 文献 或 第 4 篇 中 的 例题 。 


5.2.5 “异常 点 、 高 杠杆 点 和 强 影响 观测 值 


由 于 各 种 原因 ,数据 集中 各 数据 的 性 质 并 不 一 样 。 异常 点 、 高 杠杆 点 和 强 影响 观测 值 便 是 其 
中 三 种 不 同性 质 的 数值 点 。 

异常 点 是 指 观测 到 的 偏离 绝对 值 很 远 的 一 个 点 , 它 可 以 粗略 地 用 标准 残留 值 来 评估 。 如 果 一 
个 观测 点 对 应 的 标准 残留 值 的 绝对 值 大 于 2， 那 么 就 可 以 认为 它 是 一 个 异常 点 。 标 准 残留 值 的 定 
义 如 下 : 


yD 表示 第 ; 次 试验 第 个 自 变量 取水 


Tesiduali sangqardized 一 2 


第 5 章 统计 分 析 方法 @ 


式 中 : siya =svE 丰 ， Ee s 为 标准 差 ，n 为 观测 值 数量 。 
高 杠杆 点 可 以 认为 是 一 个 观测 值 在 预测 室 间 中 的 极限 也 即 不 考虑 y 值 的 * 变量 的 极限 , 其 
值 可 以 用 杠杆 值 加 来 表示 。 杠杆 值 最 小 可 以 为 1m。 最 大 为 1。 一 个 拥有 大 于 20w+1)/m 和 3(mr1)/m 
(为 预测 变量 的 个 数 ) 的 观测 点 可 以 认为 是 高 杠杆 点 。 
强 影响 观测 值 是 指 它 的 存在 将 很 大 程度 影响 整个 曲线 的 走向 , 通常 强 影响 观测 值 同时 既 有 大 
的 残留 什 又 有 较 高 的 杠杆 ,可 以 通过 计算 Cook 距离 是 否 大 于 1 确定 该 点 是 否 具有 强 影响 力 ,Cook 
距离 的 定义 如 下 : 

















_ Oi -7) a 
(m+1)s? = hn) 

如 果 一 个 观测 值 落 在 分 布 的 第 一 部 分 ( 低 于 25% ), 那么 它 对 整个 整体 分 布 只 有 一 点 点 影响 ; 
如 果 落 在 分 布 的 中 点 之 后 ， 那 么 说 明 该 点 是 具有 影响 力 的 。 


5.2.6 ”回归 假设 检验 


前 面 所 介绍 的 回归 方法 仅仅 依赖 于 数据 和 初始 回归 假设 的 正确 性 。 在 MATLAB 中 可 采用 统 
计 工 具 箱 中 相应 的 函数 来 验证 回归 假设 , 如 检验 是 否 为 正 态 分 布 的 函数 有 jbestO \kstestO \lilietestO 
等 函数 。 如 果 采 用 图 形 化 函数 如 正 态 概率 图 ( normplot 函数 )、 回 归 残 差 图 ( rcoplot 函数 ) 则 更 
加 直观 。 

对 于 正 态 概率 图 , 如 果 数 据 分 布 是 正 态 的 , 则 大 部 分 的 点 将 落 在 一 条 直线 上 , 如 果 偏 离 直 线 表 
明 数 据 分 布 不 正常 。 而 对 于 回归 残 差 图 ， 可 以 有 4 种 类 型 ， 只 有 第 一 种 类 型 (图 5.6 (a )) 才 是 正 
常 的 ; (b ) 图 违背 了 独立 性 假设 ; (c ) 图 违背 了 恒定 方差 的 假设 ; (d) 图 违背 了 零 均 值 的 假设 。 























(c) (d) 


5.6 残 差 与 拟 合 值 散 点 图 可 能 存在 的 四 种 模式 
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5.3 ”二 项 逻辑 ( logistic ) 回归 


多 元 回归 分 析 在 诸多 行业 和 领域 的 数据 分 析 应 用 中 发 挥 着 极为 重要 的 作用 , 但 是 在 进行 多 元 
归 时 , 要求 因 变量 是 呈正 态 分 布 的 连续 型 的 随机 变量 , 但 在 许多 问题 中 ， 因 变量 为 二 值 定性 变 
量 。 例 如 ， Een 动物 服药 后 是 生 ( 设 其 值 为 1 ) 还 是 死 ( 设 其 值 为 0 )。 显 然 这 时 
正 态 线性 模型 是 不 合适 的 。 此 类 问题 的 解决 可 借助 逻辑 回归 完成 。 


5.3.1 ”二 项 逻辑 回归 模型 


逻辑 回归 是 根据 输入 字段 值 对 记录 进行 分 类 的 一 种 统计 技术 。 当 被 解释 变量 为 01 二 值 品质 
型 变量 时 ， 称 为 二 项 逻辑 回归 。 

二 项 逻辑 回归 虽然 不 能 直接 采用 一 般 线 性 多 元 回归 模型 拟 合 , 但 仍然 可 以 充分 利用 线性 回归 
模型 建立 的 理论 和 思路 来 拟 合 。 

设 因 变量 ?为 二 值 定性 变量 , 用 0 和 1 分别 表 示 两 个 不 同 的 状态 , y=1 的 概率 p 为 研究 的 对 
象 。 自 变量 xm, x2,…, xm 可 以 是 定性 变量 ， 也 可 以 是 定量 变量。 逻辑 回归 拟 合 的 回归 方程 为 


p m 
了 一 -一 一 十 是 呈 
让 hb Zh 








本 














式 中 : m 是 自 变 量 个 数 ; p 是 在 自 变量 取 值 为 了 = (xu xz,…,xm) "时 ， 因 变量 了 取 值 为 1 时 的 概 
率 。po, i, Ba,…, Pm 是 待 估 参 数 
逻辑 回归 方程 的 另 一 利 形式 





re 
其 中 ， Z=P+tS Bs 或 2=In--。 
il l=p 


显然 Z 是 自 变 量 革 的 线性 函数 。 
今 有 < 组 实验 数据 ,第 7 组 中 (j=1,2,…,c ) 试验 了 力 次 , 其 中 y=1 及 次 , 于 是 概率 已 可 用 
Pj = 工 来 估计 ， 则 


a 


pj n 
4 -=p + Bx (j=1,2,,0) 
-Pji [= 


对 上 式 用 加 权 最 小 二 乘法 舍 计 回归 系数 ， 即 求 下 式 的 最 小 值 : 
ming= P00) = Fm) + Br tt Pan) 





式 中 : 和 ,分别 是 因 变量 y Se 次 观察 值 和 预测 值 ， 历 是 给 定 的 第 j 次 观察 值 的 权重 ,一 般 
取 观 察 值 误差 项 方差 的 倒数 : WW; = 到 。 但 由 于 一 般 误差 项 的 方差 oj 是 未 知 的 ， 所 以 当 疙 适当 


os 


大 时 ， 蕊 的 方差 可 用 下 式 的 近似 值 代替 : 
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2(7 -1 
°° Cpa-p) 
可 用 下 式 来 估计 : 
S*(2))= 2 


mpi(-p)) 





因此 ， 权 值 数 为 =nj pj(-p)) 


通过 微分 法 可 得 到 的 估计 值 房 ， 记 作 bi。 例 如 在 一 元 逻辑 回归 中 ， 回 归 系 数 为 





Em x2 
4 
» (DWX)) 
FW? Te 
PD NS AES 
DA 
~ __exp(Po+Bx) 画 ! 线 呈 S 形 并 有 渐 近 线 bp, = a 
据 p,= a 出 的 曲线 呈 S 形 ， 并 有 两 条 渐 近 线 p; =0 和 pj =1。 
多 元 逻辑 回归 方程 的 系数 为 
B=CXTV NR) XVIZ 
其 中 
1 Xl Xim 
rl Ln 
本 bp a 
p 
Vdiagvw ng] 2=Cr ni 人 


V 中 的 估计 值 为 
mpj(1—p)) 


如 果 在 。 组 试验 结果 中 ， 遇 到 w=0 或 =mw， 此 时 2) =0 或 2 =1， 或 者 遇 到 了 非常 接近 于 





0 或 1, 就 会 出 现 2j 趋 于 0 或 1, 不 再 是 一 个 有 限 值 ， 上 述 方法 就 行 不 通 ， 这 时 就 要 对 变换 和 权 





重 进 行 修 ] 


E， 修 正 的 方法 有 多 种 ， 例 如 
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六 (nm; +D(n; +2) 
nj(ry 十 DC 二 +1) 


5.3.2 ”显著 性 检验 


Logistic 回归 方程 的 显著 性 检验 包括 线性 关系 检验 和 回归 系数 检验 两 个 方面 : 
1. 回归 系数 的 显著 性 检验 





Lo 同上 方程 参数 的 显 其 性 检验 的 目的 是 这 个 检验 模 开 中 的 各 个 自 变 是 否 与 Te] 


有 显著 线性 关系 天 角 各 吉 则 在 有 重要 贡献 。 检 验方 法 一 般 采 用 Wald 检验 。 


2 
参数 及 (1=1.2,…, 且 的 Wald 统计 量 定义 为 本 = 区 | 其 中 5 为 记 的 标准 误差， 这 个 音 
Bi 


变 最 Wald 统计 量 服 从 自由 度 为 1 的 必 分 布 。 
Wald 统计 晤 越 大 ， 自 变量 忆 (1=12.…, 甩 5n[ 吉 ] 之 间 的 关系 好 吕 才 ， 应 该 保留 在 回归 
方程 中 。 
2. 线性 关系 的 显著 性 检验 


Logistic 回归 方程 线性 关系 的 显著 性 检验 的 目的 是 检验 全 体 自 变量 与 | 考 | 的 线性 关系 
Logistic 回归 方程 显著 性 的 检验 一 般 采 用 最 大 似 然 估计 方法 。 通 常 将 回归 模型 与 截 距 模型 相 
比较 。 截 距 模型 没有 引入 任何 自 变 量 ， 它 的 似 然 值 最 小 ， 是 一 个 “不 好 ”的 模型 ， 其 定义 如 下 : 


Re ng 


以 截 距 模型 作为 “基准 ”"， 比 较 当 模 型 中 引入 自 变 量 后 新 的 模型 与 数据 的 拟 合 水 平 是 否 判 别 
显著 。 差 别 越 大 ， 说 明 新 的 模型 越 有 效 。 其 具体 步骤 如 下 : 

O@ 定义 截 距 模型 ， 用 Zo 表 示 截 距 模型 的 似 然 值 ; 

@ 构造 对 数 似 然 化 统计 量 ( Likelihood Ratio Test ) 





G2 = zn[E]- Cam -Cnn 


其 中 : 工 为 最 大 似 然 函 数值 。(-2lnZ) 值 越 大 意味 着 回归 模型 的 似 然 值 越 小 , 模型 的 拟 合 程度 越 差 ; 
(-2In7) 值 越 小 则 说 明 回 归 模 型 的 似 然 值 越 大 。 似 然 值 越 接近 于 1, 模型 的 拟 合 程度 越 好 ; 如 果 似 
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然 值 等 于 1， 则 表示 模型 完全 拟 合 了 观察 值 。 
近似 服从 自由 度 为 的 闻 分 布 。 
统计 量 G? 越 大 说 明 变 量 全 体 与 [二 | 之 间 的 线性 关系 越 显 著 。 


5.3.3 ”回归 方程 的 拟 合 优 度 检验 

拟 合 优 度 表示 回归 方程 能 够 解释 因 变 量 的 变 差 程度 。 如 果 方 程 可 以 解释 因 变 量 的 较 大 部 分 
变 差 ， 则 说 明 拟 合 优 度 高 , 反之 则 说 明 拟 合 优 度 低 。 另 外 , 也 可 以 从 回归 方程 的 预测 准确 度 来 衔 
量 其 拟 合 程度 。Logistic 回归 方程 的 拟 合 优 度 常用 以 下 两 种 形式 检验 。 








1. 基于 Cox & Snell R? 统 计量 的 优 度 检验 


Cox & Snell R "统计 量 与 一 般 线性 回归 的 RR 有 相似 之 处 ,也 是 方程 对 因 变量 变 差 解释 程度 的 
反映， 其 定义 为 





Cox & Snell R? -人 


其 中 : Lo 是 只 包含 常数 项 的 似 然 函 数值 ; 工 是 当前 方程 的 似 然 函 数值 ; 1 为 样本 量 。 
Cox & Snell R? 的 取 值 范围 不 易 确 定 ， 解 释 时 有 一 定 困难 。 


2. 基于 Nagelkerke R? 统 计量 的 优 度 检验 


Nagelkerke R? 是 修正 的 Cox & Snell R?"， 也 反映 方程 对 因 变 量变 差 解释 的 程度 ， 定 义 为 
Nagelkerke R? SE 和 EE BR 
1-(Zo) 
Nagelkerke R? 的 取 值 在 0 和 1 之 间 , 越 接近 1， 说 明 方程 的 拟 合 优 度 越 高 ; 值 越 接 近 0, 说 
明 方 程 的 拟 合 优 度 越 低 。 


5.4 方差 分 析 


在 实际 应 用 中 ， 影 响 事物 性 质 的 因素 往往 有 很 多 ， 例 如 产品 的 销售 量 与 产品 的 质量 、 价 格 、 
价值 、 品 牌 、 信 誉 、 偏 好 等 。 

任 一 个 因素 的 改变 都 有 可 能 影响 事物 的 性 质 ， 有 的 因素 影响 大 些 ， 有 的 小 些 。 为 了 使 事物 的 
性 质 稳定 , 就 有 必要 找 出 对 事物 性 质 有 显著 影响 的 那些 因素 。 方 差分 析 就 是 鉴别 各 因素 效应 的 一 
种 有 效 的 方法 ， 它 主要 是 指数 据 的 变异 、 不 一 致 的 分 析 。 


5.4.1 单 因素 试验 的 方差 分 析 


单 因素 试验 方差 分 析 又 称 一 元 方差 分 析 ， 它 是 讨论 一 种 因素 对 试验 结果 有 无 显著 影响 。 
设 某 单 因素 A 有 + 种 水 平 A1、A2、--- 、Ar， 在 各 水 平 下 分 别 做 了 ni ( 赤 1,2,-…,r ) 次 试验 ， 
每 种 水 平 下 的 试验 结果 服从 正 态 分 布 ， 则 可 以 得 到 表 5.1 所 示 的 数据 表 。 
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表 5.1 单 因素 试验 数据 表 














然后 根据 方差 分 析 的 原理 ， 可 得 到 表 5.2 所 示 的 方差 分 析 表 。 
表 5.2 单 因素 试验 的 方差 分 析 表 


RE FR | 
组 间 (因素 A) SS r-1 MSs=SS/(r—1) 
i MS MS 
组 内 (误差 e) SR MP MS.=55e/(n—r) 


表 中 各 物理 量 的 意义 及 计算 方法 如 下 。 








SSr = SSA = TD) Ss.=7 -#7 


i=1 j=1 i=1 j= i=1 j= 


对 于 给 定 的 显著 性 水 平 a, 可 查 表 得 到 分 布 的 临界 值 (df4,d/,) ,如 计算 所 得 的 统计 量 大 
于 此 临界 值 ， 说 明 因素 A 对 试验 结果 有 显著 影响 ,否则 可 以 认为 A 对 试验 结果 没有 影响 。 通常， 
若 ,> 忆 o(df4.4f,) ， 就 称 因素 A 对 试验 结果 有 非常 显著 的 影响 ， 用 两 个 “*” 表 示 ; 车 
os(df4sdf,) < F< or(df4df,) ， 则 称 因素 A 对 试验 结果 有 显著 的 影响 ， 用 一 个 “*” 表 示 ; 
若 五 < os(qdf4;df.)， 则 称 因素 A 对 试验 结果 的 影响 不 显著 。 

应 当 注意 的 是 ,对 于 单 因素 多 水 平 的 试验 , 各 水 平 上 试验 次 n 数 可 以 相同 ,也 可 以 不 同 ,在 
总 的 试验 次 数 n 相同 时 ，n 相 同时 的 试验 精度 更 高 一 些 , 因此 应 尽量 安排 相同 的 单 因素 多 水 平 
试验 。 


5.4.2” 双 因素 试验 的 方差 分 析 

根据 两 因素 每 种 组 合 水 平 上 的 试验 次 数 , 可 以 将 双 因素 试验 的 方差 分 析 分 为 无 重复 试验 和 
复试 验 的 方差 分 析 。 

1. 双 因素 无 重复 试验 的 方差 分 析 


设 在 某 试验 中 ， 有 两 个 因素 A 和 B 在 变化 , A 有 7 种 水 平 A1/、As、---、A;,，B 有 s 种 水 平 
Bi1、 Bs、-…、B。, 在 每 一 种 组 合 水 平 ( AsBj ) 上 做 一 次 试验 , 试验 结果 为 xy( 二 1,2,…7, 产 1,2,…,s )， 
所 有 专 相 互 独 立 ， 得 到 试验 结果 如 表 5.3 所 示 。 








束 
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表 5.3” 双 因素 无 重复 试验 数据 表 














对 于 任 一 个 试验 值 ， 其 中 ”表示 A 因素 对 应 的 水 平 ，s 表示 B 因素 对 应 的 水 平 。 显 然 总 试 

验 次 数 n=rs。 
根据 方差 分 析 原 理 ， 可 得 到 表 5.4 所 示 的 双 因 素 方差 分 析 表 。 

表 5.4 无 重复 试验 双 因素 方差 分 析 表 











请 (统计 ) 显著 性 
MS=SS/(r—1) R=MS/ MS. 


M$=55/(s — 1) B=MS$/ MS. 
MS=SS/((r— 1)(s—1)) 





表 中 各 物理 量 的 意义 及 计算 方法 如 下 。 
SS = yo, -2 SS = sss -7 -a 


i=1 j=1 J=1i=1 i=1 j=1 

Ce ee = 过 汪 老 二 lz 
SSe = > > (xij 一 三 = 省) xz= 一 六 > xj EM = 一 2 亲 Xo = 一 2 蕊 

i=1 J=1 rs i=1 j=1 3 j=l rT ial 


式 中 : 为 所 有 试验 值 的 算术 平均 值 ， 称 为 总 平均 ; 友 , 为 A; 水 平时 所 有 试验 的 算术 平均 值 ;到 
为 马 水 平 时 所 有 试验 值 的 算术 平均 值 。 
其 中 : 已 服从 自由 度 为 ( 呢 ， 欢 ) 的 分 布 ， 对 于 给 定 的 显著 性 水 平 a, 若 ,> 到 (df dr) ， 


则 认为 因素 A 对 试验 结果 有 显著 影响 ， 否 则 无 显著 影响 ; Fs 服从 自由 度 为 (dh, df ) 的 分 布 ， 
车 > (dfs,df,) ， 则 认为 因素 B 对 试验 结果 有 显著 影响 。 











2. 双 因 素 重 复试 验 的 方差 分 析 


在 以 上 方差 分 析 中 ， 是 假设 两 因素 相互 独立 的 。 但 是 ， 在 双 因 素 试验 中 ， 有 时 还 存在 着 两 
素 对 试验 结果 的 联合 影响 ， 这 种 联合 影响 称 作 交 互 作用 。 例 如 ， 若 因素 A 的 数值 和 水 平 发 生 
变化 时 ， 试 验 指 标 随 因素 B 的 变化 规律 也 发 生变 化 ; 反之 ， 若 因素 B 的 数值 或 水 平 发 生变 化 ， 
试验 指标 随 因素 A 的 变化 规律 也 发 生变 化 ， 则 称 因 素 A、B 间 有 交互 作用 ， 记 为 AxB。 如 果 要 
检验 交互 作用 对 试验 指标 的 影响 是 否 显著 , 则 要 求 在 两 个 因素 的 每 一 个 组 合 ( A;,Bj ) 上 至 少 做 两 

设 在 某 项 试验 中 ， 有 A、B 两 个 因素 在 变化 ,， A 有 r 种 水 平 A1、A。、---、A;, B 有 s 种 水 平 
B1、B,、-…、B,， 为 研究 交互 作用 AxB 的 影响 ,在 每 一 种 组 合 水 平 ( AsBj ) 上 重复 做 C ( C>2 ) 次 
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试验 ( 称 为 重复 性 试验 )， 每 个 试验 值 记 为 xy (二 1,2,---r, 广 1,2,-…s， 乒 1,2,---,c )， 如 表 5.5 所 示 。 
表 5.5 双 因 素 无 重复 试验 数据 表 











因 素 Bs 
A XX ne Xia Xi Ni, iv 
A: rpmp ate x ne 
A. 和 Ar 





然后 根据 方差 分 析 的 原理 ， 可 得 到 表 5.6 所 示 的 方差 分 析 表 。 
表 5.6 ”有 交互 作用 双 因 素 试验 的 方差 分 析 表 


EE CT CE 


因素 A r-1 MS=S$%/(r—1) FE=MS/ MS: 
因素 B Es s—1 M$®=.55a/(s — 1) R=M$/ MS 
交互 作用 Sx (r-1)(s—1) MSxa=SSxa/((r— 1)(s—1)) | RAs=MSxa/ MS 
误差 

总 和 





a | 


SS = 


YIM。 


这 ss 去 
(xi 一 2)2 SSA = ep —x)? SSB = 六 一 x) 
i=1 j=1 


i 
wy, 
工 


名 
2 
多 
四 

1 

Q 
MM: 
[ns 


0 ee a 这 天 a 
(xi 一 zu —Xojo +x) SS。 = = 


工 
be 
工 
工 
Eee 
工 
品 
YT 


«1 
ll 
|- 
[sh 
[MM- 
[Ws 
~ 
xl 
1 
I 
Wg 
党 
1 
D 
~ 
~ 
| 
~ 
已 
ma 


D 

QQ 

I 
< 

9 
T 


一 1 
Xp =— 2 xj =L2,,s 


7C i=lk=1 
其 中 : 严 服 从 自由 度 为 (dh， 牟 ) 的 正 分 布 ， 对 于 给 定 的 显著 性 水 平 a, 若 > F,(dfi,4f.)， 
则 认为 因素 A 对 试验 结果 有 显著 影响 , 否则 无 显著 影响 ; Fs 服从 自由 度 为 (qh, qk ) 的 下 分 布 ， 
若 > (dfs,df.) ， 则 认为 因素 B 对 试验 结果 有 显著 影响 ，FaAxe 服 从 自由 度 为 (da， 吹 ) 的 
所 分布 ,对 于 给 定 的 显著 性 水 平 a, 若 Fxg > (dfaxa,dfe) ， 则 认为 因素 A 对 试验 结果 有 显著 影 
响 ， 否 则 无 显著 影响 。 


5.5” 主 成 分 分 析 


在 处 理 多 元 样本 数据 时 ,会 遇 到 一 系列 问题 ， 如 观测 数据 多 ， 指 标 间 有 可 能 有 相关 性 等 。 这 
样 它们 提供 的 整体 信息 会 发 生 重 簿 , 不 易 得 出 简明 的 规律 。 例 如 要 分 析 比较 若干 地 区 的 经 济 发 展 
状况 , 对 每 一 个 地 区 都 可 以 统计 出 数 十 项 与 经 济 状况 有 关 的 指标 , 这 些 指标 虽然 能 够 较 详细 地 反 
映 一 个 地 区 的 经 济 发 展 水 平 , 但 要 据 此 对 不 同 地 区 的 发 展 状况 进行 评价 、 比 较 、 排 序 ， 则 因 指 标 
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太 多 、 主 次 不 明显 而 过 于 复杂 ， 也 很 难 做 到 客观 公正 。 另 外 , 在 这 些 指标 中 ， 有 些 是 主要 的 ， 有 
些 是 次 要 的 ， 甚 至 某 些 指标 间 还 有 一 定 的 相关 性 。 可 以 采用 主 成 分 分 析 法 来 分 析 这 些 问题 。 

主 成 分 分 析 就 是 一 种 把 原来 多 个 指标 变量 转换 为 少数 几 个 相互 独立 的 综合 指标 的 统计 方法 。 
它 是 通过 全 面 分 析 各 项 指标 所 携带 的 信息 ， 从 中 提出 一 些 潜在 的 综合 性 指标 ( 即 主 成 分 )。 


5.5.1 主 成 分 分 析 的 数字 模型 


设 石 ,下 ,…, 克 是 原始 变量 ， 需 要 求 变量 Z1, 2Z,…, Zn 满足 m<p; 2; 与 有 不 相关 ， 即 它们 
间 的 相关 系数 为 0, 并 且 去 能 代表 p 个 原始 变量 x; 的 大 部 分 变异 信息 , 也 即 降低 了 原 变量 的 维 数 。 
对 囊 , 玉 ,…, 态 观察 了 n 次 ， 得 到 观察 数据 矩阵 为 








1 Ty Mp 
-二 关 
21 X22 2 
工 忆 
Nm Nn2 Xmp 


用 数据 矩阵 子 的 p 个 向 量 ( 即 p 个 指标 向 量 ) 加, 态 ,…, 羽 做 线性 组 合 为 
Z1=anX+arX, +---+apXp 


2 = a + qz + +apXp 


Zp 


=apX1+t+ap 2 + +app Xp 


简写 成 : 


Zi =auXl+ayX2 ++apKp,i=1,2,…,p 
Pp 
当 全 天 是 维 向 量 时 , Zi; 也 是 n 维 向 量 , 这 里 关键 是 要 求 ay( iy=1,2,…,p; 且 > ay =1 ) 使 Var(2) 


ial 
值 达到 最 大 。 

解约 束 条 件 下 的 Var( 妈 方程 ,由 于 这 个 解 是 p 维 空 间 的 一 个 单位 向 量 , 它 代 表 一 个 “方向 ”， 
它 就 是 常 说 的 主 成 分 方向 。 

一 个 主 成 分 不 足以 代表 原来 的 p 个 变量 ， 因 此 需要 寻找 第 2 乃至 第 3、 第 4 主 成 分 并 日 每 
个 主 成 分 不 应 该 再 包含 另外 其 他 主 成 分 的 信息 ， 统 计 上 的 描述 就 是 让 这 两 个 主 成 分 的 协 方差 为 
零 ， 几 何 上 就 是 这 两 个 主 成 分 的 方向 正 交 。 


5.5.2 ” 主 成 分 计算 步骤 
设 甩 表示 第 i 个 主 成 分 ， 直 1,2,…p， 设 


Z =auX +anX; +---+apXp 
2Z, =awsX +aypX, 4 


Zp =aip 和 十 0zp 下 2 ++appXp 





其 中 : 对 每 一 个 1 均 有 六 mw =1， 且 (arwaw,…awp ) 使 得 Var (2 ) 什 达 到 最 大 (qzuaz,… sp) 





119 


四 实战 大 数据 一 一 MATLAB 数据 挖掘 详解 与 实践 


120 


不 (垂直 于 (aaaz ,ap) ， 而 且 Var ( 轧 ) 值 达到 最 大 ; (qswas,… ,qap ) 不 仅 垂直 于 (awaw,… sayp ) 
和 (az,aw,…,axp )， 而 且 Var ( 2 ) 值 达 到 最 大 ; 以 此 类 推 ， 直 至 可 求 得 全 部 p 成 分 。 求 解 的 方 
法 就 是 求 基 入 矩阵 的 特征 值 。 
设 求 得 瑟 避 的 特征 值 国 过 2 过 … 三 为， 它们 所 对 应 的 标准 化 正 交 特征 向 量 为 m2,… ,mp， 则 
第 1 主 成 分 、 第 2 主 成 分 ，--- ,第 p 主 成 分 为 
Z1=X 


= Xp 

在 求解 的 过 程 中 ， 要 注意 以 下 几 点 。 

Q@ 主 成 分 分 析 的 结果 受 量 纲 的 影响 ， 由 于 各 变量 的 单位 可 能 不 一 样 ， 如 果 各 自 改变 量 纲 ， 
结果 会 不 一 样 ， 这 是 主 成 分 分 析 的 最 大 问题 ， 回 归 分 析 是 不 存在 这 种 情况 的 ， 所 以 实际 
中 可 以 先 把 各 变量 的 数据 标准 化 ， 然 后 使 用 协 方差 矩阵 或 相关 系数 和 矩阵 进行 分 析 。 

加 为 使 方差 达到 最 大 的 主 成 分 分 析 ， 所 以 不 用 转轴 。 

图 主 成 分 的 保留 。 用 相关 系数 矩阵 求 主 成 分 时 , Kaiser 主张 将 特征 值 小 于 1 的 主 成 分 予以 放弃 。 

@ 在 实际 研究 中 ,由 于 主 成 分 的 目的 是 为 了 降 维 ,减少 变量 的 个 数 ， 故 一 般 选取 少量 的 主 成 
分 (不 超过 5 个 或 6 个 )， 只 要 它们 能 解释 变异 的 70% ~ 80% ( 称 累积 贡献 率 ) 就 可 以 了 。 


5.5.3 ” 主 成 分 估计 


Zn Zi Z 


lp 
到 这 2 
设 Z= . Ss | 3 ， Q=(ms7 Tp) pnp 
Zi Lia Zp 
2 为 标准 化 正 交 阵 ， 且 Z=XO， 引 入 新 参数 a = 8 7B ， 则 主 成 分 回归 方程 式 为 





Y=phl+Zate 
由 于 特征 值 0 主 成 分 在 ”次 试验 中 取 值 的 变化 很 小 ， 它 的 作用 可 以 并 入 主 成 分 回归 方程 式 中 的 
常数 项 。 因 此 如 果 ho =hp0, 可 剔除 QDrrDZQrrp:Zp， 只 保留 a 的 前 7 个 分 量 waz,…,ar， 设 
它 的 最 小 二 乘 估计 为 &, , &, ,…,&, 然后 由 关系 式 p= Qa 即 可 确定 8 的 估计 ， 这 个 步骤 称 为 p 的 
主 成 分 估计 。 实 际 步骤 如 下 。 


将 0、 a 分 块 , 即 D-(@.0) ， =-| “|， 其 中 ,为 pxr 短 阵 ，a 为难 向 量 ， 从 而 a 的 主 成 分 
2 





估计 为 4=(a1.0)”，p 的 主 成 分 估计 为 上 = Qiw 。 为 了 增加 计算 的 稳定 性 ,车 存在 1 和 > 科 了 P, 使 
存 达 1>a 定义 
,1-1+0 -1+0 
dg) 
式 中 : ge (加 ,1 ) 为 平稳 常数 ， 从 而 可 求 得 8 的 单 参数 主 成 分 估计 


P=040'Q,0 
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5.5.4 ” 主 成 分 往 选 


在 进行 主 成 分 分 析 时 , 判断 某 主 成 分 是 否 能 删除 , 一 般 的 依据 是 删除 的 特征 向 量 占 总 特征 向 
量 之 和 的 15% 以 下 。 但 有 时 仍 需 考虑 选择 的 主 成 分 对 原始 变量 的 贡献 值 ， 此 时 可 用 相关 系数 的 平 


方 和 来 表示 。 如 果 选 取 的 主 成 分 为 Z.Zz,…: 忆 ， 则 它们 对 原 变量 xs 贡献 值 为 所 = pt ji)o 
J=1 








在 选择 主 成 分 时 ， 一 定 要 选择 与 原 变量 都 有 关系 的 主 成 分 ， 也 即 如 第 1 主 成 分 不 能 代表 所 有 
变量 ， 则 还 需要 选择 第 2 主 成 分 ， 以 此 类 推 。 


5.6 ”因子 分 析 


因子 分 析 是 一 种 多 元 统计 分 析 方法 , 在 解决 多 变量 问题 时 ， 具 有 显著 的 优点 。 因 子 分 析 主 要 
有 以 下 几 个 优点 。 

(1) 可 用 于 解决 很 复杂 的 问题 。 因 子 分 析 作 为 一 种 多 变量 分 析 方法 ， 可 同时 处 理 许多 因素 
相互 影响 的 复杂 体系 。 

(2 ) 能 快速 地 对 大 量 数据 进行 处 理 。 借 助 计算 机 ， 使 用 标准 的 因子 分 析 程 序 ， 可 以 快速 地 
分 析 大 批量 数据 。 

(3 ) 能 研究 多 种 类 型 的 问题 。 在 对 原始 数据 了 解 甚 少 甚至 对 数据 的 本 质 一 无 所 知 的 情况 下 ， 
仍然 可 应 用 因子 分 析 方法 。 这 为 研究 一 些 未 知 体系 提供 了 强 有 力 的 工具 。 

(4) 可 压缩 数据 ， 提 高 数据 质量 。 通 过 对 数据 矩阵 进行 因子 分 析 ， 可 用 最 少 的 因子 来 表示 
它们 ， 而 基本 上 不 损失 数据 原来 所 包含 的 信息 ， 并 且 还 发 掘 出 某 些 潜在 的 规则 。 

(5 ) 可 获得 对 数据 的 有 意义 的 解释 。 通 过 因子 分 析 可 对 样品 或 变量 进行 分 类 ， 能 够 为 体系 
建立 完整 的 有 物理 意义 的 模型 ， 以 此 来 预测 新 的 数据 点 。 
5.6.1 因子 分 析 的 一 般 数 学 模型 

因子 分 析 的 基本 思想 是 通过 变量 的 相关 系数 矩阵 内 部 结构 的 研究 ， 找 出 能 控制 所 有 变量 的 
少数 几 个 随机 变量 以 描述 多 个 变量 间 的 相关 系数 , 通常 这 少数 几 个 随机 变量 是 不 可 观察 的 , 称 为 
因子 。 然 后 根据 相关 性 大 小 把 变量 分 组 , 使 得 同 组 内 的 变量 之 间 相关 性 较 高 , 但 不 同 组 的 变量 相 
关 性 较 低 。 

设 石 . 殖 ,…; 怠 是 原始 变量 ， 影 响 马 的 因素 变量 有 多 个 ， 需 要 寻找 少量 的 公共 影响 变量 反映 
互 的 共同 变化 规律 ， 即 需要 确定 公共 因子 变量 ,Fy,… ,Fw 及 特殊 因子 6, 使 m<p, 且 


m 
Xi = DayF,) +tér 
j= 











式 中 : ay 是 变量 二 在 因子 万 中 的 载荷 。 

因子 分 析 的 主要 问题 是 : 确定 每 一 变量 互 的 载荷 ay; 确定 能 反映 p 个 原始 变量 互 变 化 规律 
的 公共 因子 个 数 万, 广 1,2,…,m，m<p; 因子 旋转 ， 即 对 确定 的 m 个 公共 因子 态 进 行 解释 ， 因 子 
得 分 ， 即 代入 一 组 互 的 值 时 ， 对 应 互 的 取 值 。 

假定 有 己 个 变量 互 , 玖 ,…, 态 ， 在 nn 个 样品 中 对 这 个 变量 观察 的 结果 组 成 了 如 下 的 原始 数 
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据 和 矩阵 : 
mM 
过 二 Th | | Tp 
Mn M2 Mp 


通常 为 了 消除 变量 之 间 在 数量 级 上 或 量 纲 上 的 不 同 , 在 进行 因子 分 析 之 间 都 要 对 变量 进行 如 
下 公式 的 标准 化 处 理 : 


y= 
式 中 : ww 和 6; 分 别 是 第 i 个 变量 的 平均 值 和 标准 差 。 假 定 标 准 化 以 后 的 变量 是 =1,z2,… ,zp， 则 标 
准 化 数据 矩阵 是 : 
Z -| 了 2 2 


标准 化 的 目的 是 使 每 一 个 变量 的 平均 值 都 为 零 ,方差 都 为 1。 
因子 分 析 的 基本 假设 是 p 个 标准 化 变量 =1,z2,… ,zp， 可 以 是 由 m 个 新 的 标准 化 变量 即 公共 因 
子 Fi,F2,… ,Fn 线性 的 组 合 ， 如 下 式 表 示 : 
Z1 = auF +avF + + amF 
Za = anFi +ayF + + qm 
2Z, =aph ta Py ++ apm Fs 
可 以 证 明 : 
-hs =ay 及 1=ai+ab+--ai i=L,2,…,p 
nim 


其 中 : 方 为 因子 在 某 个 样品 中 的 得 分 值 。 

在 计算 因子 载荷 时 ， 需 要 变换 和 旋转 因子 ， 但 不 改变 特征 间 的 距离 ,结果 因子 保持 正 交 , 在 
数学 上 这 样 的 变换 通过 解 特征 值 问题 得 以 实现 。 最 佳 载荷 因子 可 由 因子 旋转 的 方法 获得 。 因 子 旋 
转 又 区 分 为 正 交 和 非 正 交 因子 旋转 。 因子 旋转 的 目的 在 于 使 获取 的 新 坐标 系统 采用 最 佳 的 方式 将 
化 学 测量 数据 点 进行 分 组 ， 使 因子 的 载荷 的 结构 简单 化 。 

若 工 表示 载荷 矩阵 ，Zw 表 示 旋转 后 的 载荷 矩阵 ，7 表 示 变 换 矩 阵 ， 则 对 于 正 交 旋转 ， 有 

Dar 
对 非 正 交 旋转 ， 若 用 Lg 表示 因子 结构 矩阵 ，Lst 含 有 公共 因子 特征 的 相关 的 信息 ， 则 
j= EF 
最 常用 的 是 方差 最 大 正 交 因子 旋转 。 它 是 一 种 以 因子 载荷 的 方差 达到 极 大 为 基础 的 一 种 正 交 
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因子 旋转 方法 。 通 过 正 交 变换 后 ， 使 其 中 尽 可 能 多 的 元 素 接近 于 零 ， 而 只 在 少数 几 个 特征 上 有 较 
大 的 载荷 ， 从 而 使 载荷 矩阵 的 结构 简化 ， 有 利于 做 出 有 意义 的 解释 。 


5.6.2 ”因子 模型 中 公共 因子 、 因 子 载荷 和 变量 共同 度 的 统计 意义 





1. 因子 载荷 的 统计 意义 


因子 载荷 a5 的 统计 意义 就 是 第 i 个 变量 与 第 j 个 因子 的 相关 系数 即 表示 互 依赖 五 的 分 量 ， 
即 表示 第 i 个 变量 在 第 j 个 公共 因子 上 的 负荷 , 它 反映 了 第 ;个 变量 在 第 7 个 公共 因子 上 的 相对 重 


2. 变量 共同 度 的 统计 意义 





及 = 了 ay i=1,2,…,p 


称 为 变量 号 的 共同 度 ， 它 是 总 方差 的 主要 部 分 ， 当 共同 度 越 大 时 ， 说 明 公共 因子 包含 蕊 的 变异 
信息 就 越 多 。 


3. 公共 因子 的 方差 贡献 的 统计 意义 














六 
Si =>o j=L2,p 


称 为 公共 因子 五 对 区 的 贡献 是 衡量 公共 因子 相对 重要 性 的 指标 。 
当 S3 > 52 之 … 之 53, 时， 对 应 的 公共 因子 重要 性 从 大 到 小 的 排序 是 玉宇 户 , 宇 … 之 。 


5.6.3 ”因子 分 析 与 主 成 分 分 析 的 联系 与 区 别 


因子 分 析 可 以 看 作 主 成 分 分 析 的 推广 , 是 多 元 统计 中 常用 的 降 维 方 法 。 因 子 分 析 所 涉及 的 计 
算 与 主 成 分 分 析 也 很 相似 ,两 种 方法 的 出 发 点 都 是 变量 的 相关 系数 矩阵 , 在 损失 较 少 信息 的 前 提 
下 , 把 多 个 变量 ( 这 些 变量 之 间 要 求 存在 较 强 的 相关 性 ， 以 保证 能 从 原始 变量 中 提取 主 成 分 ) 综 
合成 少数 几 个 综合 变量 来 研究 总 体 各 方面 信息 。 因 此 这 两 种 的 适用 范围 是 相同 的 , 而 且 两 种 方法 
的 综合 指标 ( 要 使 主 成 分 分 析 中 是 主 成 分 , 在 因子 分 析 中 是 公共 因子 ) 与 原始 指标 的 关系 都 是 线 
性 的 。 
因为 两 种 方法 有 很 多 相同 之 处 , 尤其 是 在 因子 分 析 中 用 主 成 分 分 析 方 法 求解 因子 载荷 时 两 者 
似乎 更 为 一 致 , 以 致 在 不 少 场合 将 这 两 种 方法 不 加 区 分 。 其 实 它们 之 间 有 联系 , 也 有 很 大 的 差异 ， 
主要 的 区 别 如 下 : 
吕 主 成 分 分 析 仅仅 是 一 种 指标 变换 ， 不 需要 任何 概率 分 布 和 基本 统计 模型 的 假定 ， 主 要 通 
过 少数 综合 变量 反映 原始 变量 的 大 部 分 变异 信息 ; 而 因子 分 析 要 假定 原始 指标 所 特定 的 
模型 ， 其 中 的 公共 因子 与 特殊 因子 要 满足 一 定 的 条 件 ， 如 标准 化 与 独立 性 条 件 等 ， 主 要 
反映 原始 变量 的 共同 变化 规律 。 
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@ 主 成 分 分 析 是 将 主 成 分 表示 为 原 观察 变量 的 线性 组 合 , 即 Z,= 完 BX，1=12,…,m ,一 


般 有 m<p， 其 实质 是 实现 降 维 ， 即 减少 变量 个 数 且 反映 原始 变量 的 大 部 分 变异 信息 ; 则 
子 分 析 则 是 对 原始 变量 分 解 成 公共 因子 和 特殊 因子 两 部 分 ， 即 


天 = 多 ayF +6，i=12,…,n ，W<n 其 实质 也 是 降 维 ， 即 把 多 个 原始 变量 五 看 作 因 变量 ， 
j=l 




















少数 变量 五 看 作 是 自 变量 , 建立 这 两 者 间 的 关系 , 从 而 可 通过 五 的 变化 研究 变量 互 的 变化 。 

@) 主 成 分 的 各 线性 系数 应 是 唯一 确定 、 正 交 的 。 不 可 以 对 系数 矩阵 进行 任何 的 旋转 ， 且 系 
数 大 小 并 不 代表 原 变量 与 主 成 分 的 相关 程度 ; 而 因子 模型 的 系数 ay 是 不 唯一 的 ， 是 可 以 
进行 旋转 的 ， 且 系数 ay 表 明了 原 变 量 和 公共 因子 的 相关 程度 ， 旋 转 使 公共 因子 比 主 成 分 
更 容易 解释 。 

@ 主 成 分 分 析 可 以 通过 可 观察 的 原 变量 X 直接 求 得 主 成 分 Y, 当 m=p 时 具有 可 逆 性 ; 因子 
分 析 中 的 载荷 是 不 可 逆 的 ， 只 能 通过 可 观察 的 原 变量 去 估计 不 可 观测 的 公共 因子 ， 即 公 
共 因子 得 分 的 估计 值 等 于 因子 得 分 系数 矩阵 与 原 观察 变量 标准 化 后 的 矩阵 相 乘 的 结果 。 


5.6.4 _ Q 型 和 R 型 因子 分 析 


因子 分 析 的 起 点 是 协 方差 或 相关 矩阵。 对 Q@C、R 型 因子 分 析 ， 由 于 研究 的 目的 有 别 ， 采 用 的 
协 方差 阵 也 所 差别 。 








Co= pp (pxp 维 ) 
CR = 了 (nxn 维 ) 


若 采用 相关 和 矩阵， 则 


Ro = (XVo) (Xo) 
Re = (VX)VXY 


ca 1 
这 里 ， CL 
Zi 2% —x) 


R 型 因子 分 析 用 于 通过 次 观察 研究 P 个 特征 间 的 关系 ; 而 2 型 因子 分 析 则 是 通过 P 个 特征 来 
研究 ”个 样本 间 的 关系 。 这 两 者 虽然 输入 矩阵 不 一 ， 但 因子 分 析 的 算法 基本 一 致 。 


5.7 ”基于 MATLAB 的 统计 分 析 方 法 


在 MATLAB 中 ， 有 专门 的 工具 箱 可 以 利用 。 统 计 工 具 箱 经 过 不 断 的 发 展 、 完 善 ， 现 在 的 版 
本 已 经 可 以 与 SPSS、SAS 等 软件 的 统计 功能 相 媲 美 。 统计 工具 箱 几 乎 包括 了 概率 论 和 数理 统计 的 
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所 有 内 容 ， 如 概率 分 布 、 参 数 估计 、 方 差分 析 、 假 设 检验 、 分 布 检验 、 聚 类 分 析 、 判 别 分 析 、 因 
子 分 析 、 试 验 设 计 、 统 计 过 程控 制 、 回 归 分 析 等 。 

例 2.18” 某 车 间 用 一 台 包 装机 包装 糖果 。 包 得 的 袋 装 糖 重 是 一 个 随机 变量 , 它 服从 正 态 分 布 。 
当 机 器 正常 时 ， 其 均值 为 0.5kg， 标 准 差 为 0.015kg。 某 日 开工 后 为 检验 包装 机 是 否 正 常 ， 随 机 地 
抽取 它 所 包装 的 糖 9 袋 ， 称 得 净重 为 ( kg ): 0.497 0.506 0.518 0.524 0.498 0.511 0.520 0.515 0.512。 
问 该 日 的 机 器 工作 是 否 正常 ? 

解 : 

该 题 中 数据 的 总 体 o 已 知 , x~N( ,0.015? ) , py 未 知 。 于 是 提出 假设 Ho: p=po=0.5 和 i: jp#0.5 

MATLAB 实 现 如 下 : 

>>x=[0.497 0.506 0.518 0.524 0.498 0.511 0.520 0.515 0.512]; 

















>>[h,p,cil]=ztest (x,0.5,0.015) 


求 得 p=1，p=0.0248， 说 明 在 0.05 的 水 平 下 ， 可 拒绝 原 假设 ， 即 认为 这 天 包装 机 工作 不 正常 。 
例 2.19 ” 某 种 电子 元 件 的 寿命 x ( 以 小 时 计 ) 服从 正 态 分 布 ,u、o” 均 未 知 。 现 得 16 只 元 件 的 寿 
命 如 下 : 159 280 101 212 224 379 179 264 222 362 168 250 149 260 485 170。 问 是 否 有 理由 认为 元 
件 的 平均 寿命 大 于 225 (小 时 ) ? 
解 : 
按 题 意 需 检验 名 : US 和 pm=225 ” 瓦 : p>225 
取 a = 0.05。MATLAB 实 现 如 下 : 
>>x= [359.280 101 212 224 379 :179, 264,222 362 168 250 .149 2601485. 工 10] 2 
>> [h,p,ci]=ttest (x,225,0.05,1) 


求 得 =0, p=0.2570, 说 明 在 显著 水 平 为 0.05 的 情况 下 , 不 能 拒绝 原 假设 , 即 可 以 认为 元 件 的 
平均 寿命 不 大 于 225 小 时 。 

例 2.20 ”在 平 炉 上 进行 一 项 试验 以 确定 改变 操作 方法 的 建议 是 否 会 增加 钢 的 得 率 ， 试 验 是 在 
同一 平 炉 上 进行 的 。 每 炼 一 炉 钢 时 除 操作 方法 外 ,其 他 条 件 都 可 能 做 到 相同 。 先 用 标准 方法 炼 一 
炉 ， 然 后 用 建议 的 新 方法 炼 一 炉 ， 以 后 交换 进行 。 每 种 方法 各 炼 了 10 炉 ， 其 得 率 分 别 为 

1 标准 方法 78.1 72.4 76.2 74.3 77.4 78.4 76.0 75.6 76.7 77.3 

2o 新 方法 79.1 81.0 77.3 79.1 80.0 79.1 79.1 77.3 80.2 82.1 
设 这 两 个 样本 相互 独立 且 分 别 来 自 正 态 总 体 N (pe) 和 NN (po )， jy、 如 和 到 均 未 知 ， 问 建议 
的 新 方法 能 否 提高 得 率 ? ( 取 a=0.05 ) 

解 : 

即 需 检验 假设 Hl: pj 一 pp2 宇 0 而 : 和 一 <0 

MATLAB 实现 如 下 : 

SSR TA Tor TA TA TA G0 T5000 ToT Hla3]s 

人 

>> [hyproil=ttest2(x,yYr0.05,=1) 
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求 得 1=1，P=2.2126x10“。 表 明 在 o=0.05 的 显著 水 平 下 ， 可 以 拒绝 原 假设 ， 即 认为 建议 的 新 


操作 方法 较 原 方法 优 。 


例 2.21 下 面 列 出 了 84 个 伊 特 拉 斯 坎 ( Etruscan ) 族人 男子 头颅 的 最 大 宽度 ( mm )， 试 检验 


这 些 数据 是 否 来 自 正 态 总 体 ( 取 a=0.1) 。 

LI= [141 148 132 138 154 142 150 146 155 158 150 140 147 148 144 150 149 145 
158 143 141 144 144 126 140 144 142 141 140 145 135 147 146 141 136 140 146 
137 148 154 137 139 143 140 131 143 141 149 148 135 148 152 143 144 141 143 
146 150 132 142 142 143 153 149 146 149 138 142 149 142 137 134 144 146 147 
142 140 137 152 145]。 


解 : 
MATLAB 实 现 如 下 : 


>>clear,clc 





x=[141 148 132 138 154 142 150 146 155 158 150 140 147 148 144 150 149 145 
158 143 141 144 144 126 140 144 142 141 140 145 135 147 146 141 136 140 146 
137 148 154 137 139 143 140 131 143 141 149 148 135 148 152 143 144 141 143 147 
150 132 142142 143 153 149 146 149 138 142 149 142 137 134 144 146 147 140 142 
137 152 145]; 


mm=minmax (x) s 求 数据 中 的 最 小 数 和 最 大 数 
hist (x, 8) $ 画 直方 图 


149 
142 
147 
140 


149 
142 
146 
140 


fi=[length (find (x<135)), length (find (x>=135&x<138) ) , Length (find (x>=138&x<142)),... 
length (find (xX>=142&x<146) ) , length (find (x>=146&x<150)), length (find (x>=150&x<154) ) ，… 


length (find (x>=154) ) ] $ 各 区 间 上 出 现 的 频数 
mu=mean (x) , sigma=std (x) 均值 和 标准 差 
fendian=[135,138,142,146,150,154] gs 区 间 的 分 点 
p0=normcdf (fendian,mu, sigma) $% 分 点 处 分 布 函数 的 值 
pl=diff (p0) s 中 间 各 区 间 的 概率 
p=[p0(1) ,pl,1-p0(6)] s 所 有 区 间 的 概率 

chi= (fi-84x*p) .~^2./ (84*p) 

chisum=sum(chi) gs 皮尔 逊 统计 量 的 值 

x a=chi2inv (0.9,4) schi2 分 布 的 0. 9 分 位 数 


求 得 皮尔 逊 统计 量 chisum=2.2654，X2(7-2-D= 好 (=7.7794 


故 在 水 平 0.1 下 接受 矶 ， 即 认为 数据 来 自 正 态 分 布 总 体 。 





例 2.22 ”合金 的 强度 与 其 中 的 碳 含量 * 有 比较 密切 的 关系 ， 今 从 生产 中 收集 了 一 批 数据 ， 


表 5.7 所 示 。 


如 
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0.18 
50.0 





x 0.10 0.11 0.12 0.13 0.14 0.15 0.16 0.17 
y 42.0 41.5 45.0 45.5 45.0 47.5 49.0 55.0 


试 对 表 中 的 数据 进行 拟 合 ， 再 用 回归 分 析 对 它 进行 检验 。 
解 : 
为 了 确定 拟 合 函数 的 形式 ， 先 画 出 数据 的 分 布 图 : 
>> 2=0:1:0.:0L:0°1908 
>> y=[42,41.5,45.0,45.5,45.0,47.5,49.0,55.0,50.0]; 











>>plot (x,y, '+') 
得 到 图 5.7， 可 知 y 与 x 大 致 上 为 线性 关系 。 





55 T 


机 





40| 1 1 1 
01 011 012 013 014 015 016 017 


图 5.7 数据 分 布 图 








设 回归 模型 为 : y =po + Pix 
MATLAB 实 现 如 下 : 
>>clc, clear 
x1=[I0.1:0>0L:0.18]"™> 
y=[42, 41.5,45.0,45.5,45.0,47.5,49.0,55.0,50.0]'; 
x=[ones (9,1) ,xl]7 
[b,bint,r,rint,stats]=regress (y, x); 
得 到 b =27.4722 137.5000; 

bint =18.6851 36.2594; 

T57155 L199.2245 
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stats =0.7985 27.7469 0.0012 4.0883 


即 回归 系数 房 =27.4722， 房 =137.5000。 房 的 置信 区 间 是 [18.6851.36.2594]， 


户 的 置信 
区 间 是 [75.7755,199.2245]; R= 0.7985， 天 =27.7469,， 也 =0.0012，s=4.0883。 可 知 回归 函数 式 基 
本 符合 数据 分 布 


Residual Case Order Plot 


Residuals 





Case Number 


图 5.8 回归 数据 的 残 差分 布 图 


再 利用 回归 残 差分 布 图 ， 进 一 步 改进 回归 方程 式 


>>rcoplot (r, rint) 


从 图 5.8 的 残 差 分 布 图 可 看 出 第 8 个 数据 的 残 差 置信 区 间 不 包含 零点 ， 应 将 此 点 视 为 异常 点 ， 
剔除 此 点 后 ， 再 进行 回归 分 析 ， 可 得 如 下 结果 : 


b=30.7820 109.3985 


bint =26.2805 35.2834 
76.9014 141.8955 


stats =0.9188 67.8534 0.0002 0.8797 
此 结果 更 符合 实际 情况 ， 应 该 用 修改 后 的 这 个 结果 


例 2.23 ” 某 厂 生产 的 一 种 电器 的 销售 和 手 的 价格 x 和 本 厂 的 价格 x 有关 。 表 5.8 是 该 
商品 在 10 个 城市 的 销售 记录 。 试 根据 这 些 数 据 建立 y 与 x 和 x 的 关系 式 , 并 对 得 








到 的 模型 和 系数 进 
行 检验 ， 
表 5.8 某 电 器 的 销售 量 数据 

X1 150 

X2 250 

y 85 

解 : 

分 别 画 出 y 关 于 x 和 y 关 于 x 的 散 点 图 (图 5.9 ) ， 可 以 看 出 y 与 x 有 较 明 显 的 线性 关系 ， 而 y 与 
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国之 间 的 关系 则 难以 确定 ， 可 以 作 几 种 尝试 ， 然 后 用 统计 分 析 决定 优 劣 。 
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图 5.9 数据 分 布 
设 回归 模型 为 : y =potpixitpoxo 
编程 计算 如 下 。 
>> x1=[120 140 190 130 155 175 125 145 180 150] 77 
x2=[100 110 90 150 210 150 250 270 300 250]'; 


y=[102 100 120 77 46 93 26 69 65 85]';x=[ones(10,1),x1,x2]; 


[b,bint,r,rint, stats]=regress (y, x); 
得 到 如 下 结果 : 
b=66.5176 0.4139 -0.2698 
bint =-32.5060 165.5411 
"02080 Ea0296 
-0.4611 -0.0785 
stats =0.6527 6.5786 0.0247 351.0445 
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可 以 看 出 结果 不 是 太 好 : p=0.0247, 取 a=0.05 时 回归 模型 可 用 , 但 取 a=0.01 则 模型 不 能 用 ; R=0.6527 


较 小 ， 启 、 房 的 置信 区 间 包 含 了 零点 。 
为 了 得 到 更 好 的 回归 方程 式 ， 选 用 多 项 式 以 下 回归 方法 。 
设 回 归 模 型 为 
y=P +Bat+Pr +B +Po 
在 MATLAB 工 作 空间 输入 : 


>> X=[X1 x2];rstool (x,y,'purequadratic') 


得 到 图 5.10 所 示 的 交互 图 。 
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图 5.10 多 项 式 回归 交互 图 

该 图 的 左边 是 x (=151 ) 固定 时 的 曲线 y (em) 及 其 置信 区 间 ， 右 边 是 m ( =188 ) 固定 时 的 曲线 
y (xz) 及 其 置信 区 间 。 用 鼠标 移动 图 中 的 十 字 线 , 或 在 图 下 方 窗口 内 输入 数值 ， 可 改变 x1、xz。 图 
左边 给 出 ?的 预测 值 及 其 置信 区 间 ， 用 这 种 画面 可 以 回答 诸如 “ 若 某 市 本 厂 产品 售 价 160 (元 ) ， 
竞争 对 手 售 价 170 (元 ) ， 预 测 该 市 的 销售 量 ” 等 问题 。 

图 的 左下 方 有 两 个 下 拉 式 菜单 , 一 个 菜单 Export 用 以 向 MATLAB 工 作 区 传送 数据 , 包括 beta( 回 
归 系 数 ) 、mse ( 剩余 标准 差 ) 、residuals ( 残 差 ) 。 可 得 到 本 题 的 回归 系数 和 剩余 标准 差 为 

beta ==3122587L 7Z2TOU=L TS337 一 0-022800.0037 

rmse =16.6436 


另 一 个 菜单 model 用 于 在 以 下 四 个 不 同 的 多 项 式 模型 中 选择 ， 可 以 通过 比较 它们 的 剩余 标准 差 ， 
最 终 确定 回归 方程 式 。 
linear( 线 性 ) : y= +Br+-+ Bx 


purequadratic( 纯 二 次 六 y= 局 + Ba++Bux+ 守 B, 攻 
pe 









































interaction( 交 叉 ) : y=pB+Bm+-+pB,x, + 立 Ba 


1<jzk<m 
quadratic( 完 全 二 次 ): y=P+Bra+-…+pB,x+ 号 为 读 志 
在 本 例 中 最 后 选择 的 回归 方程 式 为 纯 二 次 多 项 式 ， 即 
y=Pot+Bnt+pP,x +B1n + Py 


例 2.24 在 研究 化 学 动力 学 反应 过 程 中 , 建立 了 一 个 反应 速度 和 反应 物 含量 的 数学 模型 , 形 
式 为 





约 
Lp ee 


l1+Bm+pPr +pPx 
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其 中 : pi,-…,ps 是 未 知 的 参数 ; ma、 关 和 和 是 三 种 反应 物 ( 氢 、m- 戊 尝 、 异 构成 烷 ) 的 含量 ; y 是 
反应 速度 。 今 测 得 一 组 数据 如 表 5.9。 试 由 此 确定 参数 p1,… ,ps， 并 给 出 其 置信 区 间 。pi,…,ps 的 
参考 值 为 (0.1，0.05，0.02，1，2 )。 






































表 5.9 ”实验 结果 
序号 | 反应 速度 y | 毛 x1 氢 x1 | n- 戊 烷 x2 | 异 构成 烷 Xa 
1 8.55 470 470 190 65 
2 3.79 285 100 300 54 
3 4.82 470 100 300 120 
4 0.02 470 100 80 120 
5 2.75 470 285 300 10 
6 14.39 100 285 190 120 
7 2.54 100 
解 : 
首先 ， 以 回归 系数 和 自 变量 为 输入 变量 ， 将 要 拟 合 的 模型 写成 函数 文件 myfunl : 


function y=myfunl]l (beta, x) 


y=(beta(4)*x(:,2)-x(:,3)/beta(5))./(l+beta(1)*x(:,1)+beta (2)*x(:,2)+beta(3)*x(:,3)); 


然后 ， 用 nlinfit 函 数 计算 回归 系数 ， 用 nlparci 函 数 计算 回归 系数 的 置信 区 间 ， 用 nlpredci 函 数 
计算 预测 值 及 其 置信 区 间 ， 编 程 如 下 : 
>>x0=[ 1 8.55 470 300 10;2 3.79 285 80 10;3 4.82 470 300 120;4 0.02 470 80 120 
5 2.75 470 80 10;6 14.39 100 190 10;7 2.54 100 80 65;8 4.35 470 190 65;9 13.00 100 300 54 
L0850 100 300 120711 0:05 100 .80 120212 11.32285°300 110713 3213 285 190 120]s 
FXO I 0( 2 
Deta os mos os 0 0 % 回 归 系 数 的 初 值 , 任意 取 的 
[betal, r,j]=nlinfit (x,y, @myfun]l, beta); 
beta2=nlparci (betal,r, 'jacobian',j); 
beta3=[betal, beta2] % 回 归 系 数 及 其 置信 区 间 
[y2, delta]=nlpredci (@myfun]l, x, betal, r, 'jacobian',j) sy 的 预测 值 及 其 置信 区 间 
y2+delta 


也 可 以 用 nlintool 函 数 得 到 一 个 交互 式 界面 来 解 此 题 : 
>>nlintool (x,y, 'myfunl',beta); 
可 得 到 交互 式 界面 ， 界 面 中 的 左下 方 的 Export 可 向 工作 区 传送 数据 ， 如 回归 系数 、 剩 余 标准 
例 2.25 ”根据 拼 字 游戏 每 个 字母 频率 与 分 值 值 数据 集 ( 表 5.10 )， 试 求 频率 与 字母 间 回 归 关 系 
线 。 
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表 5.10 ” 拼 字 游 戏 频率 和 点 值 





























字 母 频 率 特征 值 
A 6 1 
B 2 8 1 
二 2 到 3 
D 4 10 
E 2 6 1 
F 4 1 
六 6 1 
H 4 1 
I 2 4 
J 2 4 
K 1 8 
L 六 4 
M 1 10 

解 : 

在 作 回归 分 析 前 , 一般 都 先 画 出 变量 间 的 散 点 图 , 进而 判断 变量 间 存 在 何 种 关系 。 对 于 本 例 ， 

作 图 5.11， 可 以 看 出 ,分 值 与 字母 频率 间 的 关系 并 不 是 直线 关系 ， 而 更 近似 于 二 次 关系 。 

10 于 

a J 
a J 
了 J 
6r | 
5r 六 J 
4 上 六 .| 
3r 六 J 
2r 来 来 | 
'o 2 和 8 0 认 

















图 5.11 拼 字 游 戏 中 点 相对 于 频率 的 散 点 图 

然而 , 既 可 以 通过 转换 以 实现 线性 关系 , 也 可 以 直接 进行 多 式 项 回归 或 非 线性 回归 。 在 此 采 
用 第 1 种 方法 。 
根据 “膨胀 规则 ”可 以 发 现 图 5.10 与 图 5.4 中 的 “xz 下 、?y 下 ”的 曲线 最 为 相似 ， 因 此 通过 “本 
新 表达 阶梯 ”将 现在 的 阶梯 位 置 上 (#) 下 降 一 个 或 多 个 点 来 变换 变量 x 及 >， 即 使 用 平方 根 或 自 
然 对 数 变 换 可 实现 线性 拟 合 。 图 5.12 为 应 用 平方 根 变换 后 所 得 到 的 曲线 。 可 以 看 出 ,平方 根 变换 
后 线性 关系 仍 不 明显 。 所 以 继续 下 移 ， 用 自然 对 数 变换 ， 得 图 5.13 ， 可 以 看 出 ， 此 时 线性 关系 较 

















是 
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为 明显 。 
最 后 确定 对 原始 数据 进行 自然 变换 后 ， 再 进行 线性 拟 合 。 
So R= A Zr dr dL On 5a 72 SG Ng Tr2 SG 
174 176 1;4 1;2 4;2 4;1 8;2 4;1 10]; 




















>> x=[ones(26,1) log(x1(:,1))]; 
>> [a,b]=regress (log (x1(:,2)),x); 
a=1.9403 -1.0054 $ 回 归 系 数 
3.5 Tr r Tr 25 r 
3 下 
者 
2.5 6| 
守 站 
里 + 六 
雪 总 # 
不 2 让 二 
这 机 机 
1.5 05 
让 中 
1 1 $ Te $5 由 05 1 二 
频率 平方 根 频率 自然 对 数 
图 5.12 平方 根 变换 后 的 关系 图 图 5.13 自然 对 数 变 换 后 的 关系 图 
例 2.26 在 某 次 住房 展销 会 上 ， 与 房地产 商 签订 初步 购房 意向 书 的 共有 325 名 顾客 ， 将 325 


名 顾客 分 为 9 组， 根据 调查 ,发 现在 随后 的 3 个 月 的 时 间 内 ， 只 有 一 部 分 顾客 确定 购买 了 房屋 。 




















将 购买 了 房屋 记 为 1， 没有 购买 房屋 的 顾客 记 为 0。 以 顾客 的 年 家 庭 收入 (万 元 ) 为 自 变量 , 试 
对 表 5.11 中 的 数据 ， 建 立 Logistic 回归 模型 。 
表 5.11 住房 展销 会 历史 数据 
序 号 年 家 庭 收 入 x 签订 意向 书 人 数 m 实际 购房 人 数 mi 

1 5 58 26 

2 4.5 52 22 

要 55 43 20 

4 i 势 22 

多 5 28 16 

6 8.5 21 13 

7 a5 15 10 

8 5 25 8 

9 25 32 13 
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解 : 
Logistic 回归 方程 为 
b= PB + Bi) 
l+exp(P, + Bx;) 
其 中 : c 为 分 组 数据 的 级 数 ， 对 于 本 例 为 9。 
先 用 非 线性 回归 方法 进行 回归 。 
先 编写 回归 方程 式 : 
function Y=myfunl (beta,x) 
y=exp (beta (1) +beta (2) *x) ./ (l+exp (beta (1) +beta (2) *x)); 


然后 ， 在 MATLAB 工 作 空间 中 输入 下 列 命 令 : 

>> =135 A 5 0 N00 90 ln nl 2 2 25 .32 
>> m=[26 22 20 22 16 13 10 8 13]; p=m./n;beta=[0.1,0.05]; 
>>beta=lsqcurvefit ('myfunl',beta, x,p) 

beta=-0.9143 0.1648 


采用 先 转换 成 线性 关系 ， 再 回归 : 
>> x=[ones(9,1),x'];p=1l0g(p./(1-p))'; 
>> [b,bint,r,rint,stats]=regress (p,x,0.01); 
>> b=-0.9187 0.1657 
stats =0.9489 129.8636 0.0000 0.0127 


两 种 方法 得 到 的 结果 基本 一 致 。 

从 以 上 的 结果 可 看 出 ,采用 一 般 的 方法 回归 Logistic 逻 辑 回 归 ， 效 果 并 不 好 ， 需 要 采用 加 权 
偏 小 二 乘法 。 据 此 可 编程 计算 得 出 : 
>> [b0,bl1]=logistic (data) 

b0 =-0.8863 bl =0.1594 


即 回归 方程 式 为 
Z=-0.886+0.16x 
或 
~ exp(-0.886+0.16x) 
Pe exp(—0.886 + 0.16x) 
或 写成 


2 让 
PT lrexp(0.886—0.16x) 


由 回归 方程 可 知 ， 家 庭 年 收入 * 越 高 ，p 越 大 ， 即 签订 意向 后 真正 购买 的 概率 就 越 大 。 例 如 
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对 于 年 收入 为 9 万 元 的 客户 ， 其 购买 概率 为 





一 1 


p=— -=06304 
l+exp(0.886—0.16x9) 


Ka 





日 


“ak 
上 


F 收 入 为 9 万 元 的 客户 签订 意向 后 有 63.09% 的 人 会 真正 买房 。 








家 庭 年 收入 为 9 万 元 的 客户 其 签订 意向 后 最 终 买 房 与 不 买房 的 可 能 性 大 小 之 比 为 





odd (年 收入 9 万 元 )= 一 人 =exp(0.886 -0.16x9) =1.709 


1l-p 
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说 明 家 庭 年 收入 为 9 万 元 的 客户 其 签订 意向 后 最 终 买 房 的 可 能 性 是 不 买房 的 1.709 倍 。 另 外 ， 


可 得 如 下 的 关系 式 : 


exp(-0.886+0.16x9) 


OR( 年 收入 9 万 元 , 年 收入 8 万 元 ) = 一 一 一 一 一 一 一 一 一 一 一 1.1686 


exp(-0.886+0.16x8) 


所 以 一 个 家 庭 年 收入 9 万 元 的 客户 其 签订 意向 后 最 终 买 房 的 可 能 性 是 年 收入 8 万 元 客户 的 约 


1.17 倍 。 


例 2.27 表 5.12 给 出 了 一 个 银行 数据 的 样本 ， 表 中 第 二 栏 记 录 了 专家 对 每 个 银行 金融 情况 


的 判断 ,“1” 表 示 金 融 状况 弱 ,“0” 表 示人 金融 状 况 强 。 


常用 比率 的 值 。 


表 5.12 银行 的 金融 状况 


表 中 最 后 两 栏 给 出 了 银行 金融 分 析 中 两 个 





























观察 点 金融 状况 (y) 总 贷款 和 租赁 /总 资产 (x1) 总 费用 /总 资产 (Xx2) 
8 1 0.75 0.12 
9 1 0.56 0.16 
10 1 0.12 
11 0 0.10 
12 0 0.08 
1 0 0.08 
14 0 0.08 
15 0 0.07 
16 0 0.08 
17 0 0.09 
18 0 0.07 
19 0 0.09 
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解 : 

(1 ) 首先 考虑 构建 一 个 自 变量 的 简单 Logistic 回 归 模 型 。 

首先 以 银行 分 类 的 简单 的 ,以 总 贷款 和 租赁 与 总 资产 之 比 ( 即 m ) 作为 自 变量 的 Logistic 回 归 
模型 ， 将 有 如 下 的 变量 ; 
因 赤 量 ， rf 如 果 金 融 状况 窘 所 

0 其 他 情况 

自 (或 解释 ) 变量 : x 表示 “总 贷款 和 租赁 与 总 资产 之 比 ”。 
因 变量 和 自 变量 间 的 关系 式 为 











exp(Po + Bm) 


P(Y =1|")= 
l+exp(Po + Pm) 
利用 表 中 数据 对 模型 作 最 大 似 然 估 计 ， 可 得 : 房 = -6.926, 反 =10.99 
即 模型 为 ; FY=i|x)= exp(—6.926+10.99x%) 
l+exp(-6.926+10.99%) 
很 明显 : 
六 
RO 1+exp(_6.926+10.99x) 
| | 1 
ee exp(-6.926+10.99%) 
银行 的 贷款 和 租赁 与 资产 之 比 是 0 的 概率 导致 财政 状况 紧张 的 程度 :exp(-6.926) = 0.001 
这 是 基本 事件 的 概率 。 


银行 在 比率 为 0.6 时 在 基本 事件 中 财政 紧张 的 概率 将 按 倍数 exp(10.99x0.6) = 730 增加 ， 因 该 
银行 将 陷入 财政 紧张 的 概率 为 0.730。 
同样 可 求 得 自 变量 为 x 时 的 Logistic 模 型 : 
exp(—9.587 +94.35x,) 
l+exp(—9.587+94.35x,) 
(2 ) 进一步 考虑 两 个 变量 的 Logistic 回 归 模 型 ， 其 具体 表达 式 为 
exp(—14.19+9.173x +79.96x,) 
l+exp(—14.19+9.173x +79.96x,) 
通过 对 这 三 个 模型 的 检验 , 可 看 出 模型 三 的 性 能 明显 要 好 于 另外 两 个 模型 ,其 情况 可 以 利用 
函数 [b,dev,stats]=glmfit0 中 的 stats 参 数 得 到 。 
>> x=[0.64 0.13;1.04 0.10;0.66 0.11;0.80 0.09;0.69 0.11;0.74 0.14;0.63 
Oe 
0.56 0.16;0.65 0.12;0.55 0.10;0.46 0.08;0.72 0.08;0.43 0.08;0.52 
0.07;0.540.08; 
0.30 0.09;0.67 0.07;0.51 0.09;0.79 0.13]; 


P(Y=1|x,)= 


P(Y =1|xl,x2)= 





>> a0=ones (10,1) ;al=zeros (10,1);y0=[a0;al]; 


>> theta=glmfit (x(:,1), [y0 ones (20,1)], 'binomial', 'link','logit') $ 对 xi 求 模型 
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theta =-6.9258 10.9892 

>> theta=glmfit (x(:,2), [y0 ones (20,1)], 'binomial', 'link','logit') $ 对 xs 求 模型 
theta =-9.5869 94.3454 

>> theta=glmfit (x, [y0 ones (20,1)],"'binomial', 'link','logit') 
theta =-14.1876 9.1732 79.9639 


对 以 上 回归 结果 作 图 ， 可 得 图 5.14。 





























expt6926+10 99 xiy(+expt6.926+10 99x)) xpt9 587+94.35 xY(1+exp(.9.587+94.35 x2)) 

1 1 
08 08| 
06| 06| 
04| 04| 
02 02| 

0 0| 

0 02 04 06 08 1 12 0 005 01 015 

be % 


图 5.14 单 变量 Logistic 模型 图 
例 2.28 一 般 认 为 ， 体 质 指 数 越 大 (BMI 大 25 )， 表 示 某 人 越 肥胖 ， 而 越 肥胖 患 心血 管 疾病 











的 概率 越 大 。 根 据 表 5.13 肥胖 组 患 心血 管 病 的 体检 数据 ， 试 建立 体质 指数 与 患 心血 管 病 概率 的 
逻辑 模型 。 其 中 表 2.27 中 yy 表示 是 否 患 心血 管 疾病 ，y=1 表示 患 有 ，y=0 表示 未 患 有 。 
表 5.13 肥胖 组 患 心 血管 的 体检 数据 
ET | 
93 35 





























解 : 

根据 表 中 的 数据 ， 可 以 进行 逻辑 回归 分 析 : 

> R29 26 2 28°29 30] 7E=168, 55 66 .32° .21 25] "st=ITLI0 93 66 42 28 .29 
>> [b,dev] = glmfit (x, [f t],"'binomial', "logit'); 


>> b=-6.0324 0.2570 回归 系数 
于 是 得 到 逻辑 回归 模型 为 
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-= -6.0323+0.257x 
l-p 
从 而 可 知 患 病 概率 的 拟 合 值 为 
ee 257x 


归于 -60323+0.257: 
1+e ee 


根据 BMI 和 患 心血 管 疾病 之 间 的 逻辑 关系 模型 ， 可 以 判断 出 两 者 间 的 关系 。 设 体质 指数 为 m 
时 ， 患 心血 管 疾病 的 概率 为 p;， 当 BMI 变 化 一 个 单位 时 ， 即 变 为 +l 时 ， 记 患 心血 管 疾病 的 概率 











为 p,， 则 有 
—P = -6.0323+0.257x 
l-pi 
2 = -6.0323+0.257(x +1) 
1-—p;, 
p» Pp 
nm- 人 -nm-2 = ns] =0.257 
1l-p;, l-—p Pi1/(l-p) 
从 而 
书 /人 = py) eo257 =1.293 
Pi/(l-p) 
这 说 明 
Ps1293—P 
—P2 l-—p 


可 以 看 出 ，BMI 对 患 心血 管 疾病 的 影响 随 着 它 的 增加 而 增加 。 














例 2.29 表 5.14 为 某 公司 语音 邮箱 套餐 会 员 流失 的 情况 ， 请 对 此 进行 逻辑 回归 分 析 。 
5.14 ”语音 套餐 会 员 流失 情况 统计 表 
音 邮 箱 == 是 x=1 合计 
流失 = 候 842 2850 
y=0 
流失 = 真 80 483 
y=1 
合计 922 3333 
解 : 
根据 表 中 的 数据 可 以 得 到 使 用 语音 邮箱 套餐 的 客户 流失 的 发 生 比 ( 事件 发 生 的 概率 与 事件 不 
发 生 的 概率 之 比 ) 
SE RG 
p=1|lx=D)= a 0.0950 
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未 使 用 语音 套餐 的 客户 流失 的 发 生 比 














0 
p(y=1|x=0)= Ip 2008 0.2007 
从 而 可 得 到 让 步 比 (是 指 x=1 时 因 变 量 发 生 的 发 生 比 除 以 x=0 时 因 变 量 发 生 的 发 生 比 ) 
DP 
OR= 1 国 0.095 = 六 
Po 0.2007 
1 一 Po 


从 以 上 两 个 数据 可 分 别 计算 出 逻辑 回归 的 系数 
b=In0.47=-0.7550 
b, = In(0.095/ 0.47) = -1.5989 
则 拥有 语音 邮箱 套餐 的 客户 或 者 没有 语音 邮箱 套餐 的 客户 流失 的 估计 量 为 
二 Fa 5989—0.7550x 
PT Te 0s 
对 于 一 个 拥有 此 套餐 的 客户 ， 估 计 其 流失 的 概率 为 
i 本 
P = Tr e070 
此 概率 要 小 于 客户 流失 的 总 比例 ( 483/3333 = 14.5% ), 说 明 开 通 语音 邮箱 套餐 有 利于 减少 客 
户 的 流失 。 
对 于 没有 开通 语音 邮箱 套餐 的 客户 ， 估 计 其 流失 的 概率 为 
区 -15989 
此 概率 比 客户 流失 的 总 比例 稍 高 一 点 ， 说 明 没 有 开通 语音 邮箱 套餐 对 客户 流失 的 影响 并 不 大 。 
例 2.30 判断 客户 是 否 会 流失 ， 客 服 电话 数 也 是 一 个 较 好 的 变量 ( CSC )。 对 例 2.29 中 数据 
按 其 拨打 客服 电话 数 进行 统计 , 可 以 得 到 表 5.15 所 示 的 数据 集 。 在 此 CSC _ 低 是 指 拨打 0 个 或 1 
个 客服 电话 ; CSC _ 中 是 指 拨打 2 个 或 3 个 客服 电话 ; CSC _ 高 是 指 拨打 4 个 或 以 上 的 客服 电话 。 
试 对 其 进行 逻辑 回归 分 析 。 


=0.0868 


=0.1681 








表 5.15 语音 邮箱 套餐 会 员 流 失 情 况 统计 表 









流失 = 假 


0 





流失 = 真 
3 


合计 











解 : 
根据 题 意 可 知 , CSC 是 一 个 三 分 预测 变量 。 对 于 这 类 问题 , 首先 需要 用 指示 变量 ( 虚拟 变量 ) 
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和 参照 单元 编码 法 给 数据 集 编码 。 假定 选择 CSC _ 低 作 为 参照 单元 , 则 可 把 指标 变量 值 分 配给 另 
外 两 个 变更 -CSC _ 中 和 CSC _ 高 ， 如 表 5.16 所 示 。 
表 5.16 使 用 参考 单元 编码 的 











CSC _ 高 
低 (0 个 或 1 个 电话 ) 0 
中 (2 个 或 3 个 电话 ) 0 
高 (三 4 个 电话 ) 1 
把 CSC __ 低 作为 参考 单元 ， 则 可 计算 出 让 步 比 : 
对 于 CSC_ 中 : 
Ls gpg6n7 do 
214x1057 
hb =In0.96 =-0.0369891 
对 于 CSC _ 高 : 
x1004 S1010N632 
214x129 
b, =In8.32=2.11844 
因为 ， 对 于 那些 很 少 拨打 电话 的 客户 的 流失 率 为 
214 
=1|CSC。_ 低 ) = 一 =0.114 
p(y=1|CSC_ 低 ) 让 
从 这 个 值 可 以 求 出 bo: 
~ ia _ 中 ) 加 CSc 高 ) 1+@%+a(0) +h(0) 
P= nd Mis Rom mo nO0.ll4 
卫 十 em hn( » -| 了 十 em hl | 
B= 4 = :20505 
1 二 0.114 





所 以 ， 客 户 流失 概率 的 估计 量 为 


_ 中 ) ”bh(CSC_ 高) -2.051-0.0369891( CSC_ 中 )+2.11844(CSC_ 高 ) 


1) i _1+e 
| 了 十 epata _ 中 ) 十 加 (CSC 高 ) 1 十 e -2051-00369891( CSC_ 中 +2.11844(CSC _ 高 


从 而 可 以 计算 出 以 下 各 种 情况 下 的 流失 概率 : 
拨打 电话 处 于 中 等 水 平 的 客户 的 流失 概率 : 


-2.051-0.0369891(0)+2.11844(0) 











p(y=))= 1 | E1003698910) 72 111400) =0.11 


与 很 少 拨打 电话 的 客户 流失 概率 基本 相等 ， 所 以 可 以 不 考虑 CSC _ 低 和 CSC _ 中 的 客户 流 
失 率 之 间 的 差异 。 
经 常 拨打 电话 的 客户 的 流失 概率 : 
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-2.051-0.0369891(0)+2.11844(1) 


=0.5169 


p(y=D) TT ry 
有 一 个 较 高 的 流失 率 ,， 比 全 部 样本 的 客户 流失 率 要 高 3 倍 ， 显 然 , 公司 要 注意 这 些 拨打 电话 
不 少 于 4 个 的 客户 。 
例 2.31 水 泥 凝 固 时 放出 的 热量 y 与 水 泥 中 4 种 化 学 成 分 x1:、xs、x3、x4 有 关 ， 今 测 得 一 组 
数据 如 表 5.17 所 示 。 试 用 逐步 回归 来 确定 一 个 回归 模型 。 

















表 5.17 实验 数据 

序 号 a 加 
1 入 60 78.5 
2 1 15 52 74.3 
3 11 8 20 104.3 
4 11 47 87.6 
5 沁 33 95.9 
多 3 攻 102.7 
8 1 44 72.5 
9 2 | 18 | 22 93.1 
10 21 26 115.9 
汪 1 40 34 83.8 
12 11 66 12 113.3 
13 10 68 | ss | 12 109.4 

解 : 


>>X0=L1 26° 6 60 7178557L 29° 15 52 74.3311 56:9, 20 104321L 31 8 47 B76 
T2639 0937 95 9 22 10952n3 7 U7 6 02 T7721 3 22 坟 4]2 5 
2154 18 22 93.1721 47 4 26 115.971 40 23 34 83.8711 66 9 12 113.37 
10 68 8 12 109.4]; 
x=x0 (:,1:4) ;y=x0(:,5); 
x=[ones (13,1),x] $ 加 入 常数 项 
逐步 回归 函数 
得 到 图 5.15 所 示 的 图 形 界面 。 根 据 界面 中 的 提示 ,逐步 对 变量 进行 移出 或 移入 等 操作 ， 最 后 
得 到 结果 ( 图 中 显示 蓝 色 的 为 最 后 选中 的 变量 ) : 


betal=01.440000-0.6140 


即 回归 方程 为 


op 





>>stepwise (x, y) 
































y=1.44x —0.614x4 
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Coefficients with Eror Bars Coeff. 七 -stat P-val 
T 
XI 一 一 一 一 0 0.0000 1.0000 WEIS 
让 Move no terms 
1 
交 1 嫩 1.43996 10.4031 0.0000 Next ste 
ste 
1 
)G re 0.41611 2.2418 0.0517 Al Step 
1 
1 
X4 全 -0.410043 -2.0581 0.0697 
1 
1 
5 全 -0.613954 -12.6212 0.0000 Export .. 
-6 4 2 0 区 4 6 
Intercept = 103.097 R-square = 0.972471 F=176.627 
RMSE = 2.73427 AdjR-sq = 0.964212 p=1.58106e-008 
Model History 
20 T T 
@ 
出 
10 上 @ 二 
0 上 1 ht 
全 2 3 


图 5.15 逐步 回归 交互 式 画面 
例 2.32 为 考察 5 名 工人 的 劳动 生产 率 是 否 相同 , 记录 了 每 人 4 天 的 产量 , 并 算出 其 平均 值 ， 
得 到 如 表 5.18 所 示 的 结果 。 请 判断 他 们 的 生产 率 有 无 显著 差别 。 
表 5.18 实验 数据 表 





>>x=[256 254 250 248 236;242 330 277 280 252;280 290 230 305 220;298 295 302 
289' 25213 

>>p=anoval (x) ; $ 单 因素 方差 分 析 

得 到 如 下 的 方差 分 析 表 ( 从 方差 分 析 图 形 中 或 直接 命令 得 到 ) : 


Source ss df MS 1 Prob>F 





Columns 6125.7 4 1531.43 2.26 0.1109 
Error 10156.5 15 677.1 


Total 16282.2 19 
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因 p=0.1109 >a=0.05， 故 接受 丽 , 即 5 名 工人 的 生产 率 没有 显著 差异 。 

例 2.33 用 4 种 工艺 生产 灯泡 , 从 各 种 工艺 制 成 的 灯泡 中 各 抽出 了 若干 个 测量 其 寿命 , 结果 
如 表 5.19 所 示 ， 试 推断 这 几 种 工艺 制 成 的 灯泡 寿命 是 否 有 显著 差异 。 

表 5.19 ”实验 数据 表 

















1580 1500 










2 1670 1600 - 1550 





1610 






1680 









解 : 
>>x=[1620 1580 1460 1500;1670 1600 1540 1550;1700 1640 1620 1610;1750 1720 1680 
1800]; 
x=[x(1:4),x(16),x(5:8),x(9:11),x(12:15)];g=[ones (1,5),2*ones(1,4),3*ones(1,3); 


4*ones (1,4)]; 

p=anoval (x, g) 

得 到 如 下 的 结果 : 
Source SS df MS E Prob>F 
Groups 62820 20940 4-506°”0.033. 
Error 61880 12 5156.67 
Total 124700 15 


因 0.01<p=0.0331<0.05， 所 以 几 种 工艺 制 成 的 灯泡 寿命 有 显著 差异 。 

例 2.34 一 种 火箭 使 用 了 四 种 燃料 、 三 种 推进 器 , 进行 射程 试验 , 对 于 每 种 燃料 与 每 种 推进 
器 的 组 合 做 一 次 试验 ， 得 到 试验 数据 如 表 5.20 所 示 。 请 问 各 种 燃料 之 间 及 各 种 推进 器 之 间 有 无 
显著 差异 ? 


表 5.20 火箭 射程 试验 数据 














解 : 
设 燃 料 因素 用 A 表示 ， 它 有 4 个 水 平 ， 水 平 效 应 为 a;， 直 1,2.3,4; 推进 器 因素 为 B， 它 有 3 个 水 
平 ， 水 平 效应 为 B， 广 1,2,3。 设 在 显著 性 水 平 a= 0.05 下 检验 


Hi: a =a3=04=0 
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FE: pB,= B:= Bs=0 


>>X=[5852 S622 .16537492 SA 51SO00:D IO 9 39<277 SS 9 5052 424686712 


[p,t, st]=anova2 (x) 


得 到 如 下 的 结 


B00 

t= "Source'" 区 二 Wt Be MS EE "proD>E, 
"Columns [ 223.8467] [2 W233] [0.9174] [0.4491] 
'Rows' LE 157.5900] D3 L52553000 [0.4306] [0.7387] 
'Error" [ 731.9800] [ 6] Li21>9967] [] [] 
"Tobany [1.1134e+003] [11] [] [] [] 


因 p=0.4491 0.7387， 表 明 各 种 燃料 和 各 种 推进 器 之 间 的 差异 对 于 火箭 射程 无 显著 影响 。 
例 2.35 为 提高 某 种 化 学 产品 的 转化 率 ( % )， 考 虑 三 个 有 关 因素 : 反应 温度 A ( 'C )， 反 应 








时 间 B (min ) 和 使 用 催化 剂 的 含量 C ( % )。 各 因素 选取 三 个 水 平 。 根 据 正 交 试验 结果 ， 得 到 表 
5.21 所 示 的 结果 。 请 对 此 进行 方差 分 析 。 
表 5.21 转化 率 正 交 试验 结果 
下 素 反应 温度 A 反应 时 间 B 催化 剂 含量 C 转化 率 
1 80 (1) 6 (2) 31 
2 85 (2) 5(1) 54 
3 90 (3) pe 38 
4 80 (1) 5(1) 53 
5 85 (2) pe 49 
6 90 (3) 6 (2) 42 
7 80 (1) 7(3) 57 
8 85 (2) 6 (2) 62 
9 90 (3) 5(1) 64 
解 : 


>2y= [3 S40 38 53 49 42 57 "62 .641791=[1L 2 .31 .2312 3]:92=[L U1 2 22 3 3 3 
3= D2 1 1322 
[p,t, st]=anovan (y, {91,92,93}) 


得 到 如 下 结果 : 
p=0.1364 0.0283 0.0714 
是 


= MIMIreer SuniSd dfs "Singular?” tMean SG CE "Prob>F" 
区 [114.0000] [zl| [0] E'S7:0000] [ 6.3333] [0.1364] 
2 [618.0000] [2] [0] [309.0000] [34.3333] [0.0283] 
3 [234.0000] [2] [0] [117.0000] [13.0000] [0.0714] 
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'Error" [ 18.0000] [2] [0] [ 9.0000] [] [] 
“Total™ ia 984] [8] [0] [] [] [] 


求 得 概率 p= 0.1364 0.0283 0.0714， 可 见 因素 B、C 的 各 水 平 对 指标 值 的 影响 有 显著 差异 ( 显 
著 性 水 平 取 0.1 ) ， 而 因素 A 的 各 水 平 对 指标 值 的 影响 无 显著 差异 。 
例 2.36 在 对 某 湖泊 水 质 进行 环境 监测 时 , 设 15 个 监测 点 , 每 个 监测 点 监测 指标 为 5 项 ( 见 
表 5.22 )， 用 主 成 分 分 析 法 确定 最 佳 的 监测 布设 点 。 
表 5.22 ”水质 监测 数据 表 〈 单 位 : mg 




















点 位 DO COD BOD T-N T-P 
1 4.3 4.74 0.105 
2 $9 4.61 0.081 





7.0 3.94 
6.9 和 92 


0.072 
0.075 


74 0076 


3 
湛 
5 
6 69 3.75 0.096 
8 
9 








6.7 4.44 0.072 
6.8 4.35 0.110 
62 4.24 0.068 
12 77 0.074 
13 57 0.134 
14 68 0.109 
15 55 0.240 








>>[4.3000 4.7400 4.2300 3.6600 0.1050;5.9000 4.6100 2.5900 2.9200 0.0810; 
7.0000 3.9400 2.9200 1.7100 0.0720;6.9000 3.9200 3.1100 1.3200 0.0750; 
7.4000 4.0200 3.1000 1.2600 0.0760;6.9000 3.7500 3.1500 1.0500 0.0960; 
6.7000 4.4400 3.1400 1.0200 0.0720;6.8000 4.3500 4.0800 1.2700 0.1100; 
6.2000 4.2400 2.3300 0.7100 0.0680;7.4000 3.9900 2.8400 0.7400 0.0630; 
8.1000 4.4300 3.4400 0.8600 0.0700;7.7000 4.3100 3.5000 0.9300 0.0740; 
5.7000 4.8800 5.0200 1.8400 0.1340;6.8000 4.7300 4.3400 1.3900 0.1090; 
5.5000 5.9300 5.0600 2.8100 0.2400]; 

>>stdr=std (x) ;sr=x./stdr (ones (15,1),:); 


>> [pcs newdata,variances,t2]=princomp (sr); 


>> variances' $ 特 征 值 

ans =3.5193 0.9347 0=:2503 0.1686 0.1268 

>> (1l00*variances/sum(variances))"' gs 特 征 值 贡献 率 
ans =70.3898 18.6946 5.0061 3-.3725 2.5370 
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Cs 2 s 前 两 个 主 成 分 
ans =0.4180 -0.4836 -0.4336 -0.4230 -0.4736 
0.5645 0.2255 0.4508 -05532 人 0.3489 


pes 的 值 分 别 代表 5 项 指标 在 主 成 分 中 的 权 系 数 ， 即 作用 大 小 。 从 污染 角度 出 发 ， 根据 各 指标 
在 主 成 分 中 的 作用 大 小 ,分别 给 第 I[、 第 HI 主 成 分 赋予 物理 意义 。 从 pcs 的 值 可 看 出 ， 在 第 I 主 成 分 
中 ,第 1 项 (DO ) 对 水 质 的 影响 是 正 的 ， 而 第 2~ 5 项 ( 分 别 为 COD、BOD 、T-N、T-P) 对 水 
质 的 影响 是 负 的 , 主要 反映 了 有 机 污染 物 和 水 质 自净 作用 的 对 比 程度 , 该 值 越 大 , 说 明 水 质 越 好 ， 
自净 能 力 强 ; 而 第 I 主 成 分 主要 反映 环境 单元 在 第 I 主 成 分 值 大 体 固定 的 条 件 下 水 体 中 的 氨 的 形成 
富 营养 化 程度 的 量度 ， 随 着 T- N 项 权 值 的 增加 ， 说 明 富 营养 化 引起 水 质 的 下 降 。 
>> newdata(:,1:2)"' sg 主 成 分 的 得 分 
ans =Columns 1 through 11 
21466 -054833:L:0960'1.1267 1.21591.1640.0<7322 -0.1523.1:3053/1.8233 1=288T 
=25075U 18049 =0-5834 =05281L95 .0a09L8 O00012 =0-.0005 :05667 S06494 0 1619 
Columns 12 through 15 
Vll64 =251164 06750 =4057553 
ES32 9-5853 D88320 TL34 





>> plot (newdata(:,1),newdata(:,2),'o') 多 主 成 分 得 分 如 图 5 .16 所 示 
15 
让 dl 
9 a dz 
05| gs 
lo 
0 9 $ " 
4 
-05 838 
-1 
1.5| 
8 
2 d 
-25 
5 4 3 2 -1 0 1 











图 5.16 主 成 分 得 分 

从 图 5.16 中 可 看 出 ，15 个 观察 点 被 分 成 6 类 : (3,4,5,6,7,9,10,11,12), (8,14)，(1)，(2)， 
(13 ) ，(15 ) 。 而 这 6 类 在 二 维 平面 图 上 是 按照 一 定 的 方向 和 顺序 依次 排列 的 ， 自 右 到 左 ， 污 
染 程度 逐渐 增加 。 不 同 的 污染 类 别 ， 实 质 上 是 客观 反映 了 沿岸 工业 、 人 口 分 布 对 水 环境 的 影响 ， 
两 相 邻 类 在 污染 类 型 上 具有 一 定 的 相似 性 ， 而 在 污染 程度 上 具有 显著 的 差异 性 。 

从 分 类 结果 看 ， 尚 需 进一步 优选 的 类 别 有 ( 3,4,5,6.7.9,10,11,12 ) 、(8,14) 两 类 ， 可 根据 类 间 
点 位 的 主 成 分 值 相差 最 大 的 原则 选择 ， 参 考 得 分 值 ， 明 显 最 佳 点 为 (10 ) 、(14)。 至 此 ，15 个 观 
察 点 经 优选 后 的 最 佳 点 位 为 (1,2,10,13,14.15 ) 。 
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例 2.37 为 了 检测 某 工厂 的 大 气质 量 情况 , 在 8 个 取样 点 进行 取样 并 进行 分 析 ， 得 到 如 表 





























5.23 所 示 的 分 析 结 果 。 试 对 其 进行 R 型 因子 分 析 。 
表 5.23 大 气 环境 质量 检测 结果 单位 : yg/m 
序号 | 各 [于 化 后 二 已 坟 
1 0.056 0.084 0.031 0.038 0.0081 0.022 
2 0.049 0.055 0.100 0.110 0.022 0.0073 
3 0.038 0.130 0.079 0.170 0.058 0.043 
4 0.034 0.095 0.058 0.160 0.200 0.029 
5 0.084 0.066 0.029 0.320 0.012 0.041 
6 0.064 0072 | oo | 020 | oo028 1.380 
7 0.048 0.089 0.062 0.260 0.038 0.036 
8 0.069 0.087 0.027 0.089 0.021 
解 : 
>> load mydata; 
>> [d,y]=R factor (x); %q 为 因子 ，y 为 各 因子 的 得 分 
>> d= 0.9740 -0.2265 
-0.9828 -0.1846 
-0.2289 059735 
057305 0.6829 
-0.9775 -0.2110 
0.3415 0.9399 


oq 


从 分 析 结 果 不 难看 出 : 第 一 主因 子 主要 由 氧 、 硫 化 氢 、 环 氧气 丙烷 和 环 已 烷 等 构成 ， 而 第 二 
主因 子 由 二 氧化 硫 、 碳 四 气体 和 环 已 烷 等 构成 ， 两 个 主因 子 体 现 的 污染 源 不 一 样 。 另 外 从 图 5.17 
中 也 可 以 看 出 各 个 样本 的 主要 污染 物种 类 。 


第 二 主因 子 得 分 
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02 04 06 
第 一 主因 子 得 分 


5.17 各 因子 得 分 


08 
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例 2.38 对 例 2.36 的 数据 进行 Q 型 因 


解 : 





子 分 析 。 


Q 型 因子 分 析 除 了 输入 矩阵 不 同 于 R 型 因子 分 析 ， 其 他 运算 过 程 完 全 一 样 。 


>> y=Q factor (x); 


> oN963n 


Oe 


So 0 一 一 


9969 
9788 
9954 
9835 
1504 
S29 
8557 


=0<2671 


= 


-0790 
-2047 
-0956 
8L2 
-9886 
-1560 
3 


sQ 型 因子 分 析 函 数 ， 限 于 篇 幅 不 再 列 出 


例 2.39 在 MATLAB 中 因子 分 析 的 极 大 似 然 估计 函数 为 Factoran， 其 调用 格式 为 
[lambda, psi, t, stats] =factoran (Xx, M) 
其 中 : X 是 观察 向 量 ; M 是 公共 因子 的 数目 ; psi 返回 的 特殊 因子 负荷 矩阵 的 估计 值 ; + 返回 因子 
负荷 旋转 矩阵 ;stats 是 一 个 数据 结构 ,包含 了 与 假设 统计 检验 有 关 的 信息 。 详 细 调 用 格式 见 该 函 


数 的 help。 


对 例 2.35 的 数据 ， 用 factoran 函数 分 析 之 ， 以 确定 它 最 佳 的 监测 布设 点 。 


解 : 


>> [a,b,c,d,f]=factoran (x,2,"'rotate', 'promax'); 


转载 荷 阵 


利用 结果 可 分 别 作 图 5.18 和 图 5.19， 从 图 
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中 可 看 出 ，2、3、5 指标 则 与 




















2 
5 
a 
05 0 05 1 15 更 
因子 1 
图 5.18 因子 图 


gs 因子 数 设 为 2， 利 用 最 大 方差 旋 


因子 1 有 关 ，1、4 指标 





与 因子 2 有 关 。15 个 观察 点 被 分 成 6 类: (3,4,5,6,7,9,10,11,12 ),，(8,14), (1), (2), (13), (15)。 
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因子 1 得 分 
图 5.19 因子 得 分 
从 分 类 结果 看 ， 尚 需 进一步 优选 的 类 别 有 ( 3,4,5,6,7,9,10,11,12 ) 和 (8,14) 两 类 ， 可 根据 类 间 
点 位 的 载荷 分 值 相差 最 大 的 原则 选择 ， 参 考 得 分 值 ， 明 显 最 佳 点 为 ( 10 )、(14)。 至 此 ，15 个 观 
察 点 经 优选 后 的 最 佳 点 位 为 ( 1,2,10,13,14,15 )。 
例 2.40 在 制定 服装 标准 的 过 程 中 , 对 128 名 成 人 的 身材 进行 了 测量 , 每 人 测 了 身高 、 坐 高 、 





胸围 、 手 臂 长 、 肋 围 和 腰围 6 项 指标 ， 其 数据 样本 的 相关 和 矩阵 如 表 5.24 所 示 。 试 对 表 中 数据 进 
行 因子 分 析 。 
表 5.24 ne 

EEE 六 
4 


























对 相关 系数 矩阵 进行 因子 分 析 ， 设 公共 因子 为 2， 特 殊 方 差 的 下 限 为 0 

>>x=[1 0.79 0.36 0.76 0.25 0.51;0.79 1 0.31 0.55 0.17 0.35;0.36 0.31 1 0.35 
0.64 0.58;0.76 0.55 0.35 1 0.16 0.38;0.25 0.17 0.64 0.16 1 0.63;0.51 0.35 0.58 
0.38 0.63 1]; 





>> [lamda,psi,T]=factoran (x,2, 'xtype', 'covariance', 'delta',0, 'rotate', 'none'); 

>>head={ "变量 ', "因子 f1', ' 因 于 £2"; 

>> varname={ "身高 '，' 坐 高 "，' 胸 围 '，' 手 臂 长 "，' 肋 围 "，' 腰围 ' ，' 贡献 率 ($) ',' 累积 贡献 率 
(4 
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>> contribut=100*sum(lamda.^2)/6;cumcont=cumsum (Contribut) 7 


>> sl=num2cell ([lamda;contribut;cumcont]); 


>> s=[head;varname, sl1] 


s = ' 变 量 ' uF "因子 2 
' 身 高 ' [ 1.0000] [-2.1074e-006] 
' 举 高 ' [ 0.7900] [ -0.0292] 
"胸围 [ 0.3600] [ 0.6573] 
"手臂 长 ' [ 0.7600] [ 3.4051e-004] 
' 肋 围 ' 02500] [ 0.8355] 
"腰围 " [ 0.5100] [ 0.6026] 
' 贡 献 率 ($)' [44.2317] [ 24.8999] 


"累积 贡献 率 (%) " [44.2317] [ 69.1316] 


由 变量 在 因子 上 的 载荷 可 以 看 出 ， 





因子 1 反映 的 是 身高 、 坐 高 和 手臂 长 ， 称 为 身高 因子 ; 因 





子 2 反映 的 是 胸围 、 肋 围 和 腰围 ， 说 明 的 是 胖 瘦 ， 称 为 胖 瘦 因 子 。 
从 特殊 方差 psi 来 看 ， 第 一 个 特殊 方差 达到 了 参数 delta 的 取 值 0， 表 明 出 现 了 海 伍德 现象 ， 
而 其 他 方差 比较 大 , 再 考虑 到 前 两 个 因子 的 贡献 率 只 有 69% 左 右 , 说 明 拟 合 不 足 , 可 以 考虑 增加 


因子 数目 。 


下 面 利用 最 大 方差 旋转 法 对 因子 进行 旋转 ， 观 察 因子 载荷 的 变化 : 





>> [lamda,psi,T]=factoran (x, 


2, 'xtype', 'covariance', 'delta',0) 


>> contribut=100*sum(lamda.^2)/6;cumcont=cumsum (contribut) 

可 以 看 到 因子 旋转 后 , 旋转 矩阵 7 发 生 了 变化 ， 并且 因子 载荷 每 列 上 的 各 元 素 差异 更 明显 ， 
更 容易 对 因子 做 出 解释 了 ， 但 是 因子 的 累积 贡献 率 没有 变化 。 

下 面 增 加 因子 数 ， 观 察 因子 载荷 的 变化 情况 : 


>> [lamda,psi,T]=factoran (x,3, 'xtype', 'covariance', 'delta',0) 





>> contribut=100*sum(lamda.^2)/6;cumcont=cumsum (contribut) 


此 时 仍 没 有 消除 海 伍德 现象 ， 从 特殊 方差 来 看 ， 第 4 个 变量 (手臂 长 ) 的 特殊 方差 为 0.0132， 
说 明 它 也 得 到 了 很 好 的 拟 合 , 但 是 其 他 变量 的 特殊 方差 还 是 较 大 , 拟 合 仍 不 足 。 由 于 受 ( d-m )? 之 dtm 
( 维 数 q=60 ) 的 限制 ， 因 子 数 不 能 继续 增 大 。 事 实 上 即使 再 增加 因子 数 ， 虽 然 能 消除 海 伍德 现象 ， 
但 因子 也 失去 了 作为 公共 因子 的 意义 ， 并且 解释 时 也 可 能 会 变 得 困难 ， 这 也 是 毫 无 意义 的 。 

例 2.41 典型 相关 分 析 是 分 析 变 量 间 关系 的 一 种 常用 方法 , 它 分 别 从 两 组 数据 中 提取 相关 性 
最 大 的 两 个 成 分 ,通过 测定 这 两 个 成 分 之 间 的 相互 关系 , 来 推测 两 个 数据 间 的 相互 关系 。 典 型 相 
关 分 析 有 着 重要 的 应 用 背景 , 如 在 宏观 经 济 分 析 中 , 研究 国民 经 济 的 投入 要 素 与 产 出 要 素 这 两 组 









































变量 间 的 联系 情况 ;在 市 场 分 析 中 ,如 


试 对 表 5.25 的 某 矿床 数据 集 进行 典型 相关 分 析 ， 以 揭示 矿床 的 成 因 。 





究 销售 情况 与 产品 性 能 间 的 关系 等 。 
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表 5.25 某 矿 床 数据 集 



































岩 体 矿 体 

Al2O3 Fe2O3 Na2O Cu S 
17.71 0.65 .12 0.99 3.14 
16.31 0.25 3.27 1.19 10.30 
18.07 0.58 3.66 071 11.78 
16.67 0.49 3.69 1.35 5.01 
17.10 0.20 3.39 1.36 1.78 
17.57 0.66 3.98 0.95 3.01 
17.70 0.62 4.40 0.87 299 
19.24 0.82 4.00 0.75 4.86 
17.97 1.41 4.07 0.61 2.87 
17.89 0.83 4.15 1.13 14.31 

解 : 
2x1=1 1 7 065. :3253s360029973214TL6s3ULO253 2 2 99010530A 


0 

LO OS S00 Bo On or od 5 N33 00 
IIT0 02203:39" 2209 1036 1-787ET: S70 60 300 .320 0 
TIT0 0062 A-40 LA45 00687 2599719624" .0582 A4000 1.94 O0715 40967 
Wen Ls dl ASOT7 ZO 0 2 L090 0 .03 A 200D 7 1 3 bas 
>>x=x1 (7 Lay=eLU(: 6) 
>> [A,B,r,U,V,stats] = canoncorr (x,y); gs 典型 相关 分 析 函 数 
>> A= -0.7073 -0.4147 

=l-0243 3.6691 


0:3575. =5:2949 


OR15640 S797 
S3391200 0 S30 

0.0104 -0.2254 
>> r=0.8240 0.1909 $ 典 型 相关 系数 


矿 体 的 元 素 Cu、S 与 地 层 的 化 学 成 分 AbO;、Fez0s、NazO 、K2?O 间 关 系 密切 ， 特 别 是 矿床 
的 主要 元 素 Cu 与 地 层 中 的 Fes03 关 系 密切 。 从 地 质 统计 学 方面 来 讲 ， 铜 矿床 为 与 地 层 有 关 的 热 
水 沉积 矿床 。 

例 2.42 ”对 我 国 国家 统计 局 网 站 提供 的 2007 年 我 国 大 陆地 区 31 个 省 、 自 治 区 、 直 辖 市 的 农 
村 居民 家 庭 平 均 每 人 全 年 消费 性 支出 的 数据 表 进 行 主 成 分 分 析 。 

解 : 
数据 表 中 有 食品 、 衣 着 、 居 住 、 家 庭 设 备 及 服务 、 医 疗 保健 、 交 通 和 通信 、 教 育 文化 娱乐 服 
务 ， 杂 项 商品 服务 共 8 个 变量 。 通 过 对 数据 的 主 成 分 分 析 ， 可 以 得 知 各 地 消费 水 平 及 其 特点 。 
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在 主 成 分 分 析 中 , 最 为 关键 的 是 确定 应 提取 多 少 个 主 成 分 。 提 取 多 少 个 主 成 分 的 标准 是 : @ 特 
征 值 标准 : 只 有 特征 值 大 于 1 的 主 成 分 应 子 保 留 。@) 解 释 变 异 比例 标准 : 通过 指定 期 望 主 成 分 能 解 
释 总 变异 的 量 , 然后 一 个 接 一 个 地 选择 要 素 , 直到 达到 理想 的 解释 变异 比例 。 例 如 假设 希望 主 成 分 
解释 85% 的 变异 量 。@@ 最 小 共性 指标 : 共性 代表 了 各 变量 在 主 成 分 分 析 中 的 总 体重 要 性 。 较 高 的 
共性 值 ( 即 得 分 矩阵 中 的 系数 ) 表示 主 成 分 成 功 地 提取 了 初始 变量 中 的 大 部 分 波动 ; 较 低 的 共性 值 
说 明 数据 集中 仍 有 一 些 未 被 主 成 分 所 解释 的 波动 。 @ 碎 石 图 : 碎 石 图 是 特征 值 与 主 成 分 数量 的 关系 
图 , 它 可 用 于 寻找 一 个 上 限 ( 最 大 值 ) 来 决定 多 少 主 成 分 应 予以 保留 。 大 部 分 碎 石 图 在 形状 上 大 致 
相同 , 左 侧 开始 处 高 , 迅速 下 降 , 然后 从 某 一 点 开始 变 平坦 。 一 般 曲线 开始 趋 于 平坦 的 分 界 点 便 是 
最 多 主 成 分 数量 的 取 值 。 

根据 以 上 要 点 ， 就 可 以 对 给 出 的 数据 进行 主 成 分 分 析 。 
>> varname={ ' 食 品 ' “' 衣 着 ' “居住 ' ' 家 庭 设备 及 服务 ' “医疗 保健 ' “交通 和 通信 ' “' 教 
育 文化 娱乐 服务 ' “杂项 商品 服务 '} 7 
>>samplename={ "北京 "'，' 天 津 "，' 河 北 "，' 山 西 "，" 内 蒙古 '，' 辽 宁 "，' 吉 林 "，" 黑 龙 江 "，' 上 海 "，' 江 
苏 … 浙江"… "安徽 '，' 福建"，' 江 西 "，' 山 东 "，" 河南"…，' 湖北"，' 湖南 "，' 广 东 "，' 广 西 "，' 海 南 "，' 重 
庆 ', ' 四 川 ",' 贵 州 ', ' 云 南 ', ' 西 藏 ', ' 陕 西 ',' 甘 肃 ',' 青 海 ', ' 宁 夏 ',' 新 疆 ' }; 
>>1oad mydata; 





























>> [ml,m2,m3,m4]=princomp analy (x, 0.95,varname, samplename);  $ 主 成 分 分 析 函 数 
可 以 得 到 以 下 的 分 析 结 果 : 
s1= ' 特 征 值 ' ' 差 值 ' "贡献 率 " "累积 贡献 率 " 


[6.8649] [6.2904] [0.8581] [ 0.8581] 
[0.5746] [0.4060] [0.0718] [ 0=9299] 
[0.1686] [0.0236] [0.0211] [ 0.9510] 
[0.1449] [0.0464] [0.0181] [ 0.9691] 
[0.0986] [0.0149] [0.0123] [ 0.9814] 
[0.0837] [0.0403] [0.0105] [ 0.9919] 
[0.0435] [0.0222] [0.0054] [ 0.9973] 
[0.0213] [] [0.0027] [ Ll 


由 sl 矩阵 及 图 5.20 所 示 的 碎 石 图 可 以 确定 主 成 分 数 为 2。 
>> m2 为 各 主 成 分 与 变量 间 的 关系 : 





m2= ' 标 准 化 变量 ' ' 主 成 分 1 “" 主 成 分 2" 
' 食 品 ' [ 0.3432] [ 0.5030] 
' 衣 着 ' 0.3384] [-0.4869] 


[ 
' 居 住 ' [ 0.3552] [ 0.1966] 
' 家 庭 设备 及 服务 ' [ 0.3692] [ 0.1089] 
"医疗 保健 [ 0 
"交通 和 通信 [ 0 


:3751] [-0.0526] 
-3587] [=0-2212] 
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"教育 文化 娱乐 服务 "  [ 0.3426]  [-0.4791] 
"杂项 商品 服务 " [ 0.3442] [ 0.4221] 











图 5.20 碎 石 图 


可 以 看 出 ， 主 成 分 1 中 的 每 个 变量 都 有 相近 的 载荷 ， 说 明 每 个 标准 化 变量 对 主 成 分 1 的 重 
要 性 相差 不 大 , 它 反映 的 应 该 是 综合 性 消费 支出 水 平 。 而 主 成 分 2 在 食品 与 杂项 商品 服务 上 有 中 
等 程度 的 负载 荷 ， 在 衣着 和 医疗 保健 上 有 中 等 程度 的 正 载荷 ， 说 明 它 反映 的 是 两 个 方面 的 对 比 ， 
一 方面 是 衣着 和 医疗 的 消费 总 支出 , 另 一 方面 是 食品 和 其 他 商品 及 服务 的 消费 总 支出 , 所 以 可 以 
认为 主 成 分 2 反映 的 是 消费 倾向 成 分 。 这 个 结论 可 以 从 ml 中 的 两 个 矩阵 数据 得 到 证 实 。 在 计算 
过 程 中 , 因为 主 成 分 1 反映 的 是 总 支出 , 所 以 在 计算 各 地 区 总 消费 支出 水 平 m1{1} 的 情况 时 是 以 
主 成 分 1 为 基准 ( 即 对 主 成 分 1 排序 ); 在 计算 各 地 区 消费 倾向 (m1{1} ) 时 是 以 主 成 分 2 为 基 
准 ( 即 对 主 成 分 2 排序 )。 

后 几 个 主 成 分 的 贡献 率 较 小 ， 可 以 不 做 解释 ， 但 却说 明了 标准 化 变量 之 间 可 能 存在 一 个 或 
多 个 共 线性 关系 。 

另外 , 根据 图 5.21 两 个 主 成 分 得 分 散 点 图 可 以 把 31 个 地 区 分 为 3 类 , 其 中 北京 、 浙 江 和 上 
海 为 第 一 类 ， 江苏、 福建 和 广东 为 第 二 类 ， 其 余 为 第 三 类 。 
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主 成 分 2 得 分 








主 成 分 得 分 散 点 图 


OO 广东 


O 〇 海南 
湖南 
OF 广西 外 湖北 
贵州 西藏 O 江 西 
四 川 


福建 


O 〇 江苏 


OO 浙江 








要 
主 成 分 1 得 


4 
分 


图 5.21 前 两 个 主 成 分 得 分 的 散 点 图 


m3 说 明 各 变量 的 权重 。 从 权重 矩阵 也 可 以 确定 较为 适宜 的 主 成 分 数量 。 
m4 的 数据 可 以 说 明 数 据 集中 聚 簇 情况 ， 在 本 例 中 上 海 是 距离 数据 集中 最 远 的 地 区 。 
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6.1 ” 贝 叶 斯 定理 、 先 验 和 后 验 


贝 叶 斯 理论 是 一 种 研究 不 确定 性 的 推理 方法 。 

不 确定 性 常用 贝 叶 斯 概率 表示 ， 它 是 一 种 主观 概率 。 通 常 的 经 典 概率 代表 事件 的 物理 特性 ， 
是 不 随 人 的 意识 变化 的 客观 存在 ,而 贝 叶 斯 概率 则 是 人 的 认识 ,是 个 人 主观 的 估计 , 随 个 人 的 主 
观 认识 的 变化 而 变化 。 如 在 投掷 硬币 的 实验 中 , 贝 叶 斯 概率 是 指 个 人 相信 硬币 会 正面 向 上 的 程度 。 

主观 概率 不 像 经 典 概率 那样 强度 多 次 的 重复 , 因此 在 许多 不 可 能 出 现 重复 事件 的 场合 能 得 到 
很 好 的 应 用 ， 如 投资 者 对 股票 是 否 能 取得 高 收益 的 预测 都 不 可 能 进行 重复 的 实验 。 

因此 利用 主观 概率 , 按照 个 人 对 事件 的 相信 程度 而 对 事件 做 出 推断 是 一 种 很 合理 而 易于 解释 
的 方法 。 

在 贝 叶 斯 理论 之 上 可 以 建立 贝 叶 斯 网 络 。 贝 叶 斯 网 络 是 用 来 表示 变量 之 间 连 接 关系 概率 的 图 
形 模式 , 它 提供 了 一 种 自然 的 表示 因果 关系 的 方法 , 刻画 了 信任 度 与 证 据 的 一 致 性 以 及 信任 度 随 
证 据 而 变化 的 增 量 学 习 特 性 ， 以 概率 的 权重 来 描述 数据 间 的 相关 性 。 

使 用 p(X=x|A) 或 者 p(x|A) 表 示 给 定 知识 A 的 情形 下 对 事件 x 的 相信 程度 ， 即 贝 叶 斯 概率 ， 
它 同 时 也 是 于 的 分 布 (或 分 布 密度 )。 

如 果 9 是 一 个 参数 , p(6|A) 表 示 在 给 定 知识 A 的 前 提 下 9 的 分 布 ，D = {X =,…,XXy = xw} 
表示 观测 数据 集合 ， 则 p(6lD，A) 表 示 给 定 知识 A 和 数据 D 时 参数 9 的 分 布 ， 其 中 p(6|A) 表 示 参 
数 9 的 先 验 密度 ,， 有 知识 A 表示 该 先 验 不 是 无 知识 先 验 , 它 是 在 掌握 知识 A 后 给 出 的 先 验 密 度 ， 
PP(9IDP，A) 表 示 参 数 9 的 后 验 密度 ， 它 是 在 已 知 知识 A 和 数据 D 之 后 对 参数 的 分 布 密度 的 估计 。 
在 实际 表示 中 ， 可 以 省 略 知识 A。 

由 贝 叶 斯 法 则 有 











PpP(O1D)p(D)= p(0,D)= p(0)p(D1O) 
经 过 简单 变化 ， 可 以 得 到 由 先 验 和 数据 计算 后 验 的 贝 叶 斯 定理 
P(DIO)P(O) 
JP(D10)P(0) 
式 中 的 p(6|D) 常 常 被 称 为 似 然 函数 ， 用 KO|D) 表 示 ， 此 时 贝 叶 斯 定理 常 可 表示 为 
P(0|D) x 1(D|0)P(0) 

一 般 来 说 ， 先 验 分 布 反映 人 们 在 数据 获得 之 前 对 参数 ( 或 其 他 概率 知识 ) 的 认识 ; 后 验 则 是 
反映 在 获得 数据 之 后 对 参数 的 认识 。 

两 者 的 差异 是 由 于 数据 出 现 后 对 参数 的 一 种 调整 。 所 以 从 这 个 角度 看 , 先 验 和 后 验 是 相对 的 ， 
当 需 要 利用 新 数据 更 新 参数 的 分 布 密度 时 , 已 知 的 参数 分 布 密度 就 是 先 验 分 布 密度 , 更 新 后 的 参 
数 分 布 就 是 后 验 分 布 。 

这 一 更 新 过 程 可 以 重复 进行 , 只 要 有 新 的 数据 信息 , 就 可 以 根据 贝 叶 斯 定理 对 先 验 分 布 密度 
进行 更 新 ， 得 到 后 验 分 布 密度 。 

贝 叶 斯 定理 给 出 了 一 种 根据 新 数据 不 断 更 新 后 验 分 布 的 序 贯 方法 。 如 果 获 得 了 新 的 数据 集 
合 D*， 则 在 获得 数据 D 和 D* 后 参数 的 后 验 分 布 为 
P(D’ 160)P(0|D) 

P(D') 


P(0|D)= 





P(01D',D)= 
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6.2 ” 贝 叶 斯 网 络 


设 0 是 一 个 随机 变量 ，U = 人 克 ,…, 瑟 } ， 其 中 豆 从 一 有 限 集 ValC9 中 取 值 。C 的 一 个 贝 叶 
斯 网 络 定义 了 U 上 的 一 个 联合 概率 分 布 。 

以 B=《〈 G,@) 表 示 一 贝 叶 斯 ， 其 中 G 是 一 个 有 向 无 环 图 ， 其 顶点 对 应 于 有 限 集 U 中 的 随机 变 
量 五 ,全 ,,…, 陡 , ， 其 弧 代 表 一 个 函数 依赖 关系 ， 如果 有 一 条 弧 从 右 到 石 ， 则 五 是 乱 的 双亲 或 直接 前 
驱 (或 父 节 点 ) , 马 是 瑟 的 后 继 (或 子 节点 ) ,变量 各 所 有 双亲 变量 用 集合 Pa(2 表 示 ,， 并 用 paCXD 
表示 Pa(X) 的 一 个 取 值 。 一 旦 给 定 其 双亲 ， 图 中 的 每 个 变量 独立 于 图 中 该 连接 点 的 非 后 续 。 

这 里 的 独立 是 指 条 件 独立 , 其 定义 是 : 给 定 Z, 已, 怠 是 条 件 独立 的 , 如 果 Vx e 庆 ,VX) E 瑟 )， 
Vz eVal(Z), 当 P(6,D)>0 时 , 有 P(x |z,xj) = P(x; |z) 成 立 。 其 中 @ 表 示 用 于 量化 网 络 的 一 组 参数 ， 
对 于 每 一 个 臣 的 取 值 ws， 以 及 Pa(Ct 的 paCt 取 值 ， 存 在 一 个 参数 ，bpotz) = P(x | pa(XX;)) ， 指 明 
了 在 给 定 paCXD 下 xi 发 生 的 条 件 概率 。 图 6.1 即 为 一 个 贝 叶 斯 网 络 。 








图 6.1 一 个 贝 叶 斯 网 络 


实际 上 贝 叶 斯 网 络 给 定 了 变量 集合 X 上 的 联合 条 件 概率 分 布 
pO Xa) TIPO Pol) 
贝 叶 斯 网 络 的 建立 主要 有 两 个 相继 环节 一 个 是 结构 学 习 ， 另 一 个 是 参数 学 习 。 
@ 结构 学 习 是 利用 一定 的 方法 建立 贝 叶 斯 网 络 结构 的 过 程 ， 该 过 程 决定 了 各 个 变量 间 的 关 
系 ， 结 构 学 习 环节 是 贝 叶 斯 网 络 分 类 算法 的 最 重要 的 步骤， 是 参数 学 习 环节 与 分 类 环节 
的 基础 。 

@ 参数 学 习 是 量化 网 络 的 过 程 ， 它 在 网 络 结构 已 知 的 情况 下 计算 各 节点 的 条 件 概率 。 

通常 用 以 下 三 种 不 同 的 方式 来 构造 贝 叶 斯 网 络 。 

(1 ) 由 领域 专家 确定 贝 叶 斯 网 络 的 变量 ( 有 时 也 称 为 影响 因子 ) ， 然 后 通过 专家 的 知识 来 
确定 贝 叶 斯 网 络 的 结构 ,并 指定 它 的 分 布 参数 。 这 种 方式 构造 的 贝 叶 斯 网 络 完全 在 专家 的 指导 下 
进行 ， 由 于 人 类 获得 知识 的 有 限 性 ， 导 致 构建 的 网 络 与 实践 中 积累 下 的 数据 有 较 大 偏差 。 

(2 ) 由 领域 专家 确定 贝 叶 斯 网 络 的 特点 ， 通 过 大 量 的 训练 数据 ， 来 学 习 贝 叶 斯 网 络 的 结构 
与 参数 。 这 种 方法 完全 是 一 种 数据 驱动 的 方法 ， 具 有 很 强 的 适应 性 ， 而 且 随 着 人 工 智能 、 数 据 控 
据 和 机 头 学 习 的 不 断 发 展 ， 使 得 这 种 方法 更 加 普及 。 

(3 ) 由 领域 专家 确定 贝 叶 斯 网 络 的 特点 ， 通 过 专家 的 知识 来 指定 网 络 的 结构 ， 而 通过 机 器 
学 习 的 方法 从 数据 中 学 习 网 络 的 参数 。 这 种 方法 实际 是 前 两 种 方法 的 折 中 ， 当 领域 中 变量 之 间 的 
关系 较为 明显 的 情况 下 ， 这 种 方法 能 大 大 提高 学 习 的 效率 。 
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6.3” 贝 叶 斯 网 络 学 习 


6.3.1 贝 叶 斯 网 络 的 结构 学 习 


贝 叶 斯 网 络 结构 学 习 算 法 主要 分 析 节 点 依赖 关系 与 节点 连接 关系 。 常 用 的 方法 是 基于 评分 
一 搜索 的 贝 叶 斯 网 络 结构 学 习 和 基于 信息 化 的 依赖 分 析 方法 。 

(1 ) 基于 评分 搜索 的 贝 叶 斯 网 络 结构 学 习 的 算法 将 学 习 问 题 看 作 是 数据 集 寻 找 最 合适 的 结 
构 , 这 类 算法 从 没有 边 的 图 形 开始 ， 利 用 搜索 方法 将 边 加 入 到 图 形 中 。 然 后 ， 利 用 测试 方法 检验 
是 否 新 的 结构 优 于 旧 的 结构 。 如 果 是 , 保存 新 加 上 的 边 并 继续 加 入 其 他 边 。 这 个 过 程 一 直 持续 到 
最 优 的 结构 。 不 同 的 测试 标准 可 以 应 用 在 算法 中 以 评价 结构 的 优 劣 。 大 多 数 算法 应 用 的 是 启发 式 
搜索 的 方法 。 为 了 减少 搜索 空间 ， 许 多 算法 事先 指定 结构 的 次 序 。 

由 于 该 算法 需要 随 着 变量 增加 其 运算 复杂 性 ， 所 以 当 变量 较 大 时 ， 贝 叶 斯 网 络 结构 空间 是 
相当 大 的 , 这 会 使 搜索 用 时 较 长 且 结 果 较 差 , 这 导致 了 准确 有 效 地 找到 贝 叶 斯 网 络 分 类 器 的 最 优 
网 络 结构 是 非常 困难 的 。 

(2 ) 基于 信息 论 学 习 贝 叶 斯 网 络 的 算法 主要 根据 变量 之 间 的 依赖 性 建立 贝 叶 斯 网 络 结构 。 
依赖 关系 通过 变量 的 相互 信息 程度 定义 ， 如 果 对 应 变量 的 网 络 节点 为 Xi 和 号 ， 则 已 和 3 的 相互 信 
息 可 以 表示 为 





Rh 
NE)= POE Xl 
(Xi,X)) 记 ( DE PO PC) 
条 件 相 互信 息 为 
P(E lO) 


I(X,,X,|C)= P(E XOle—— 
0 2 ?OO Flr IO 


C 是 一 个 节点 集合 ， 如 果 7(X;, 耻 ,) < (ze 是 一 个 定 值 ) ， 则 节点 各 和 依赖 较 少 。 


6.3.2” 贝 叶 斯 网 络 的 参数 学 习 


贝 叶 斯 网 络 的 参数 学 习 实 质 上 是 在 已 知 网 络 结构 的 条 件 下 , 通过 样本 学 习 获 取 每 个 节点 的 概 
率 分 布 表 ,初始 的 贝 叶 斯 网 络 的 概率 分 布 表 一 般 由 专家 根据 先 验 知识 指定 , 称 为 网 络 的 先 验 参数 。 
这 样 的 先 验 参 数 可 能 导致 与 观察 数据 产生 较 大 的 偏差 。 要 使 偏差 减少 , 必须 从 样本 数据 中 学 习 以 
获取 更 准确 的 参数 及 其 相应 的 概率 分 布 。 针 对 完整 与 不 完整 数据 , 贝 叶 斯 网 络 的 参数 学 习 也 分 为 
两 种 不 同情 况 。 


1. 基于 完整 数据 的 贝 叶 斯 网 络 参数 学 习 


对 完整 数据 集 D 进 行 条 件 概率 学 习 的 目标 是 找到 能 以 概率 形式 P (xl6 ) 概括 样本 D 的 参数 9。 
参数 学 习 一 般 要 首先 指定 一 定 的 概率 分 布 族 , 然后 采用 最 大 似 然 估 计 MLE 方 法 或 贝 叶 斯 方法 估计 
这 些 参 数值 ， 下 面 简单 介绍 贝 叶 斯 方法 。 

设 定 瑟 = (五 ,一 ,) 为 对 应 各 节点 的 随机 变量 集 ，B3 表 示 贝 叶 斯 网 络 的 结构 ，6 表 示 各 节 


第 6 章 贝 叶 斯 网 络 方法 @ 


点 条 件 概 率 分 布 的 随机 变量 。 样本 数据 D = (G,C,,-…,C,), 每 个 都 是 随机 变量 的 实例 , 目的 是 通 
过 对 样本 数据 的 学 习 ， 得 到 各 节点 的 条 件 概率 分 布 。 
贝 叶 斯 方法 学 习 条 件 概率 由 两 部 分 组 成 , 即 观察 前 的 先 验 知识 和 观测 得 到 的 数据 。 假设 参数 
的 先 验 分 布 为 Dirichlet 分 布 ， 即 
MO = Di 二 [10 


IIre ys 


式 中 : a=Ya 是 分 布 精度 ， 区 别 于 分 布 参数 ，wi ( 二 1,…,n ) 为 超 参数 ， 这 些 参 数 为 每 个 取 值 


i=1 
出 现 个 数 的 先 验 知识 。 当 N=2 时 为 Beta 分 布 ， 那 么 样本 发 生 的 概率 为 
IT(a) T(a;+n,) 


PO 1I FT 





参数 的 后 验 概率 也 为 Dirichlet 分 布 ， 即 


P(O)PDI9) T(a+n) 


MO HG 


II68” = Dir(w +m,,Qw +nw) 


式 中 : nn 是 训练 样本 中 的 x 第 ;个 值 出 现 的 次 数 ，n 为 总 的 出 现 次 数 。 
对 于 含有 多 个 父 节点 条 件 概率 计算 ，6x 表 示 xr 时 ，xrt 的 条 件 概率 ，” 表 示 x 的 取 值 个 数 ， 
4 表示 所 有 父 节 点 的 状态 总 数 ， 那 么 在 以 上 假定 的 基础 上 ， 对 于 每 个 变量 mx 和 人 它 的 父 状态 r 王 服从 
Dirichlet 分 布 ， 即 
PC 0 19 -TI 
在 数据 集 D 下 的 后 验 分 布 仍 为 Dirichlet 分 布 ， 所 以 可 以 用 下 式 来 计算 条 件 概率 ， 即 


十 717 
Qk + ik 
ny 
学 y 


2. 不 完整 数据 下 的 贝 叶 斯 网 络 参数 学 习 


当 训 练 样本 集 不 是 完整 的 情况 下 ， 一 般 要 借助 近似 方法 ， 目 前 常 采 用 的 是 Gibbs 抽 样 算法 
( Gibbs sampling ) 和 EM ( Expectation Maximization ) 算法 。 

Gibbs 抽 样 算 法 是 一 种 随机 的 方法 ， 能 近似 出 变量 的 初始 概率 分 布 ， 算 法 定义 为 : 按照 候选 
假设 集合 H 上 的 后 验 概率 分 布 ， 从 H 中 随机 选择 假设 h, 使 得 来 预言 下 一 个 实例 的 分 类 。 算 法 分 为 
三 个 步骤 : 首先 ， 随 机 地 对 所 有 未 观察 变量 的 状态 进行 初始 化 ， 由 此 可 得 出 一 个 完整 的 数据 集 ; 
其 次 ,基于 这 个 完整 的 数据 集 ， 对 CPT ( 条 件 概率 表 ) 进行 更 新 ; 最 后 ， 基 于 更 新 的 CPT 参 数 ， 
用 Gibbs 抽 样 算法 对 所 有 丢失 的 数据 进行 抽样 ， 又 得 到 一 个 完整 的 数据 集 。 直 到 CPT 达 到 稳定 时 ， 
完成 学 习 过 程 。 

EM 算法 可 用 于 变量 的 值 从 来 没有 被 直接 观察 到 的 情形 ， 只 要 这 些 变量 所 遵循 的 概率 分 布 的 
一 般 形式 已 知 即 可 ， 可 利用 EM 算法 搜索 参数 的 极 大 后 验 概率 。 这 个 算法 包括 两 个 步骤 ， 期 户 

( Expectation Step ) 和 最 大 化 (Maximization Step ) 。Expectation (下 ) 步骤 : 用 现 有 参数 来 估计 
未 观察 参数 ; Maximization ( M ) 步骤 : 利用 估计 参数 进行 参数 的 ML/MAP 估 计 ， 将 估计 值 赋 给 
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参数 。 重 复 EM 步 又, 直至 收敛 。 在 E 步 又 ,所 有 节点 的 期 望 值 可 以 用 推理 算法 进行 计算 。 其 基本 
思想 是 : 首先 给 整个 网 络 的 CPT 选 择 随机 值 , 并 将 其 作为 当前 假设 g, 利用 网 络 结构 的 CPT 做 概率 
推理 , 得 到 隐藏 变量 的 概率 权重 ( 给 定 观察 数据 值 时 缺失 数据 集 的 条 件 概率 ) ,通过 采样 获得 这 
些 变量 的 估计 值 ， 然 后 利用 这 些 估计 值 计算 出 新 的 最 大 可 能 的 假设 g， 用 g 蔡 换 。 重 复 以 上 过 程 ， 
该 过 程 伴随 着 隐藏 变量 的 估计 值 ， 收 敛 于 本 地 最 大 可 能 的 假设 ， 即 最 大 可 能 的 条 件 概率 表 。 


6.4 ”主要 贝 叶 斯 网 络 模型 


根据 变量 关系 要 求 的 不 同 ， 贝 叶 斯 网 络 一 般 可 分 为 有 约束 贝 叶 斯 网 络 和 无 约束 贝 叶 斯 网 络 。 
有 约束 贝 叶 斯 网 络 要 求 变量 对 应 的 节点 是 相互 独立 或 有 少量 的 节点 是 不 独立 的 , 这 样 的 假设 可 以 
使 网 络 建立 过 程 的 结构 简化 或 参数 学 习 计算 量 大 大 减少 ; 而 无 约束 贝 叶 斯 网 络 允许 变量 节点 是 不 
独立 的 。 
下 面 介 绍 几 种 主要 的 贝 叶 斯 网 络 模型 。 


6.4.1 朴素 贝 叶 斯 网 络 


朴素 贝 叶 斯 网 络 是 典型 的 有 约束 贝 叶 斯 网 络 。 朴 素 贝 叶 斯 网 络 有 如 图 6.2 所 示 的 简单 结构 。 
这 个 网 络 描述 了 朴素 贝 叶 斯 分 类 器 的 假设 ， 即 给 定 类 变量 ( 网 络 中 的 根 节点 ) 的 状态 , 每 个 属性 
变量 ( 网 络 中 每 个 叶 节 点 ) 与 其 余 的 属性 变量 是 独立 的 。 























图 6. 2 ”朴素 贝 叶 斯 网 络 

朴素 贝 叶 斯 网 络 分 类 器 的 工作 过 程 如 下 : 

(1 ) 每 个 数据 样本 用 一 个 "维特 征 向 量 瑟 = (也 ,六 ,,…, 子 ,) 表示 , 分 别 描述 对 n 个 属性 A1,A2,…， 
An 样本 的 m 个 度量 。 

(2 ) 假定 有 m 个 类 CuC>…:Cn。 给 定 一 个 未 知 的 数据 样本 X ( 即 没有 类 标号 ) ,分 类 法 将 预 
测 X 属 于 具有 最 高 后 验 概率 ( 条 件 下 ) 的 类 。 即 朴素 贝 叶 斯 分 类 器 将 未 知 的 样本 分 配给 类 Ci， 当 
是 仅 当 

POC |X)>PC) IX)1S jm zi 

这 样 ， 最 大 化 P(C; | 了 ) ， 使 P(C: | 站) 最 大 的 类 Gj 称 为 最 大 后 验 假定 。 根 据 贝 叶 斯 定理 有 
P(X|C)PC,) 

P(X) 

(3 ) 由 于 P (于 ) 对 于 所 有 类 为 常数 ， 只 需要 P(X|C)P(G) 最 大 即 可 。 如 果 类 的 先 验 概率 
未 知 ， 则 通常 假设 这 些 类 是 等 概率 的 , 即 PCC) = P(C,)=-…=P(C。) ,并 据 此 只 对 P(X1C,) 最 大 
化 。 否 则 ， 最 大 化 P(X |C)P(C,) 。 其 中 类 的 先 验 概率 可 以 用 P(C;)=s;/s 计算 ,其 中 s; 是 类 GC; 中 
的 训练 样本 数 ，s 是 训练 样本 总 数 。 


P(G I)= 
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(4 ) 给 定 具 有 许多 属性 的 数据 集 ， 计 算 P(X1C) 的 开销 可 能 非常 大 。 为 降低 此 开销 ， 可 以 
做 类 条 件 独立 的 朴素 假设 。 给 定 样本 的 类 标号 ,假设 属性 值 相 互 条 件 独立 ， 即 在 属性 之 间 不 存在 
依赖 关系 ， 这 样 有 


POF IC)=T TP co) 
k=1 


概率 P(x | Gi),P(xz | Gi),…,P(x | Gi) 可 以 由 训练 样本 估 值 ， 其 中 
@ 如 果 4# 是 离散 属性 ， 则 P(x | G;)= si /s; ， 其 中 sx 是 在 属性 44 上 具有 值 x 的 类 CG 的 训练 样 
本 数 ，s; 是 类 C 的 训练 样本 数 。 
@ 如 果 4 是 连续 属性 ， 则 离散 化 该 属性 。 
(5 ) 为 对 未 知 样本 X 分 类 ， 对 每 个 类 C;， 计 算 PCE 1CD)P(C) 。 样 本 8 被 指派 到 类 C， 当 且 仅 当 


P(C; | X)P(C) > P(XIC)P(C ,1S j Sm, ji 





即 X 被 指派 到 使 P(X |C)P(G,) 最 大 的 类 Ci。 
朴素 贝 叶 斯 网 络 分 类 器 的 特点 : 
。 优点 : 网 络 结构 非常 简单 ， 建 立 网 络 时 间 少 ， 参 数学 习 与 分 类 过 程 简便 。 
。 缺点 : 由 于 类 条 件 独立 假设 割断 了 属性 间 的 联系 ， 使 得 其 网 络 结构 不 合理 ， 导 致 了 朴素 
贝 叶 斯 网 络 分 类 器 的 分 类 精度 相对 较 低 。 


6.4.2 TAN 贝 叶 斯 网 络 


Tree Augmented Naive Bayesian(TAN) 网 络 是 一 种 有 约束 的 贝 叶 斯 网 络 , 是 对 朴素 贝 叶 斯 网 络 
分 类 器 的 一 种 改进 。 它 要 求 属性 节点 除了 以 类 结构 为 父 节点 外 最 多 只 能 有 一 个 属性 父 节点 , 即 每 
一 节点 至 多 有 两 个 父 节 点 ， 如 图 6.3 所 示 。 


Class 
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图 6. 3 一 个 TAN 网 络 结构 
若 Y、7、2 是 属性 变量 ， 则 两 变量 间 的 条 件 互信 息 定义 为 
DOTID- 开 Peeraos FE SE 
它 度量 一 个 变量 包括 另 一 个 变量 的 信息 的 多 少 ,两 变量 间 的 互信 息 越 大 , 则 两 个 变量 朴素 包 
合 对 方 的 信息 就 越 多 。 
设 {天 ,五 ,…, 写 ,} 是 个 属性 节点 ， 则 TAN 的 结构 学 习 过 程 分 为 如 下 5 个 步骤 : 
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(1 ) 计算 属性 变量 对 之 间 的 条 件 信息 : 刀 ( 瑟 : 瑟 |C),ij =12,…n 

(2 ) 建立 一 个 以 五 (到 ;到 |C) 为 弧 的 权重 的 加 权 完 全 无 向 图 ，i,j=1,2,…,n 

(3 ) 找 出 一 个 最 大 权重 生成 树 。 

(4 ) 选择 一 个 根 节 点 ， 设 置 所 有 边 的 方向 是 由 根 节点 向 外 ， 把 无 向 树 转换 为 有 向 树 。 

(5 ) 建立 一 个 类 变量 节点 及 类 变量 节点 与 属性 节点 之 间 的 弧 。 

建立 最 大 权重 生成 树 的 方法 是 : 首先 把 边 按 权重 由 大 到 小 排序 , 然后 遵照 选择 的 边 不 能 构成 
回路 的 原则 , 按照 边 的 权重 由 大 到 小 的 顺序 选择 边 , 这 样 由 所 选择 的 边 构成 的 树 便 是 最 大 权重 生 
成 树 。 

TAN 分 类 器 的 特点 如 下 。 

网 络 结构 较为 简单 ,建立 网 络 耗 时 少 , 由 于 它 在 一 定 程度 上 克服 了 朴素 贝 叶 斯 网 络 分 类 器 结 
构 的 不 合理 假设 , 分 类 精度 较 朴 素 贝 叶 斯 网 络 高 , 且 其 分 类 性 能 是 当前 所 有 贝 叶 斯 网 络 分 类 器 中 
的 佼佼 者 。 由 于 TAN 分 类 器 的 优异 性 能 以 及 网 络 结构 简单 ,TAN 分 类 器 是 一 种 被 广泛 应 用 的 贝 叶 
斯 网 络 分 类 器 。 


6.4.3 ”无 约束 贝 叶 斯 网 络 


学 习 无 约束 贝 叶 斯 网 络 结构 时 需要 引入 一 个 评估 函数 。 目 前 常用 的 用 于 学 习 贝 叶 斯 网 络 的 两 
个 评分 函数 是 贝 叶 斯 评分 函数 以 及 基于 最 小 描述 长 度 (MDL ) 的 函数 。 
设 B= <G.9> 是 一 贝 叶 斯 网 络 ， za 是 训练 样本 集 ， 则 网 络 了 的 评分 函数 为 








MDL(B| 六 = 至 立 |B|-LLCB1D) 


N 
其 中 ，| 8 | 是 网 络 参数 的 个 数 ， 而 LL (8B 1D) 为 : IL(B1D)= >I8(B() 


上 式 给 出 了 已 知 节点 数 z 时 ,决定 可 能 的 贝 叶 斯 网 络 结构 的 个 数 的 回归 函数 。 很 明显 ， 随 着 
节点 数 的 增加 ， 相 应 的 可 能 网 络 结构 个 数 是 呈 指 数 级 增长 的 。 因 此 ， 当 节点 数 较 大 时 ， 如 何 有 效 
地 ,快速 地 在 其 相应 的 网 络 结构 空间 中 找 出 与 训练 数据 匹配 最 好 的 网 络 结构 是 无 约束 网 络 结构 学 
习 的 重点 。 


6.5 ”基于 MATLAB 的 贝 叶 斯 网 络 方法 


应 用 贝 叶 斯 定理 进行 分 类 ,可 以 用 两 种 方法 。 一 种 是 本 节 介 绍 的 贝 叶 斯 网 络 方法 ; 另 一 种 方 
法 是 基于 概率 统计 的 贝 叶 斯 分 类 器 。 后 者 在 计算 类 条 件 概 率 密度 函数 PCY| O 时 采用 以 下 的 公式 ， 
此 方法 适用 于 连续 属性 ; 而 对 于 离散 属性 要 采用 贝 叶 斯 网 络 方法 。 在 应 用 贝 叶 斯 网 络 方法 处 理 连 
续 属 性 时 首先 要 离散 化 。 

在 大 多 数 情况 下 ， 类 条 件 概率 密度 可 以 采用 多 维 变量 的 正 态 密度 函数 来 模拟 : 
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式 中 :和 = (wxz,…,xy) 为 n 维特 征 向 量 ; 4= (4,A,……: 多 ) 为 维 均值 向 量 ;83= EC-A(GE-A7] 
为 维 协 方差 矩阵 ;8S1 是 8 的 道 矩阵 ，| S | 是 S 的 行列 式 ，X% 为 几 类 的 均值 向 量 。 
例 2.43 ”测定 了 冠 心病 人 和 正常 人 血 中 微量 元 素 的 含量 ( 如 表 6.1 所 示 ) ， 试 用 Bayes 法 进行 





表 6.1 ” 冠 心 病人 及 正常 人 血 中 4 种 微量 元 素 的 测定 结果 “(pg/mL) 









































样本 号 Cele 原 归 类 
X1 X2 XxX3 X4 
1 0.039 46.2 632 1 
2 0.051 32.9 4.85 1 
3 0.009 509 6.48 1 
4 0.042 55.5 627 1 
5 0.026 43.2 5.45 1 
6 0.034 592 7.13 1 
7 0.016 41.6 4.56 1 
8 oo9 | os | 332 7.06 1 
9 007 | 094 | 36.8 621 1 
10 0.051 | os | 33.7 6.17 1 
11 0.071 31.4 7.19 1 
i2 0.055 35.9 5.53 1 
13 009 | lo | 336 7.18 1 
14 0.031 31.9 4.07 2 
15 0.030 53.1 6.48 2 
16 0.050 36.4 4.53 2 
17 0.040 0.720 50.0 4.07 2 
18 0.043 0.81 65.4 6.18 2 
19 0.047 0.640 53.6 423 2 
20 0.076 63.5 60 2 
21 0.072 44.6 4.49 2 
22 0.103 68.4 7.11 2 
23 0.062 62.1 734 2 
24 0.087 708 7.78 2 
25 0.091 70.1 6.94 2 
26 0.040 36.7 3.74 2 











解 : 
>>1oad mydata; 
>> y=bayes (mydata(l1:13,:),mydata(14:26,:),mydata(1:13,:),1); 


WV 1 2 2 . 2 1 3 下 二 0 1 
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结果 表明 ， 第 4、5、7 号 样品 分 类 与 原 归 类 不 一 致 。 

function result=bayes (Varargin) sbayes 分 类 函数 
type=varargin{end}; $1 为 基于 最 小 错误 率 ，2 为 基于 最 小 风险 率 
rl=length (varargin) -2; loss=ones (rl1)-diag (diag (ones (r1))); 
test=varargin{end-1};x=[]; 

for i=1l:rl;x=[x;varargin{i}]; r(i)=size(varargin{i},1);end 

[yl, y2]=mypcacov (x, test); $ 主 成 分 分 析 ， 以 保证 样本 呈正 态 分 布 

for k=l1:size (test,1) 








temp=0; 
for 
i=1:rl;y=yl (temp+1:temp+r (i), :) ;temp=temp+r (i);y_cov=cov(y);y_inv=inv(y_cov); 
y_det=det (y_cov); 
if r(i)==1;y mean=y;else;y mean=mean (y) ;end 
p=r (i)/sum(r) ;h(i)=- (y2 (Kk,:)-y mean) '*y inv*(y2(k,:)-y mean)/2+l0g(p)-10g 
(abs (y_det)) /2; 
end 
switch type 
case 1 
[a, result (k) ]=max (h); $ 基 于 最 小 错误 率 的 分 类 
Case 2 


for j=1:rl; risk(j)=l0oss(j,:)*h';end; [a,result (k)]=min (risk); 























$ 基 于 最 小 风险 率 的 分 类 
end 
end 
例 2.44 利用 贝 叶 斯 网 络 方法 对 表 6.2 所 示 的 数据 进行 分 类 分 析 。 
表 6.2 ” 某 店 顾客 情况 数据 集 

RID age income credit_rating Class:buys-computer 

1 <30 high fair no 

2 30 high excellent no 

3 31...40 high fair yes 

4 >40 medium fair yes 

学 二 40 low fair yes 

6 >40 low excellent no 

7 31...40 low excellent yes 

8 30 medium fair yes 
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续 表 












excellent 










excellent | yes 





fair yes 





excellent 





利用 朴素 贝 叶 斯 网 络 解 此 问题 ， 编 程 如 下 : 


>>train ={'age''income' 'student' 'credit rating' 'Class:buys-computer'; 


"30" "high” "no" "falr” nos”"<30" "high’” "no excellenE nos 
131407 "high “no "fair’, "yes"s">40"mediam' "no faiz "yes”s 
'>40' 'low' 'yes' 'fair' ‘yes';'>40' 'low' 'yes' 'excellent' 'no'; 
'31..40' 'low' 'yes' 'excellent' 'yes';'<30''medium' 'no' "fair' 'no'; 
"和 30' 'low' 'yes' 'fair' 'yes';'>40' 'medium' 'yes' 'fair' 'yes'; 
'<30' 'medium' 'yes' 'excellent' 'yes';'31..40' 'medium' 'no' 'excellent' 'yes'; 
'31..40' "high' 'yes' 'fair' 'yes';'>40' "medium' 'no' 'excellent' 'no'}; 
>>sample=train(2:6,:); 
>> classl=bayesnet (train, sample); % 贝 叶 斯 网 络 函数 
function classl=bayesnet (train, sample) 
[Ni, M]=size (train(2:end,1:end-1));sample num=size (sample,1);class=unique (tra 
in(2:end,end)); 
for i=1:M 
property train{i}.val=unique (train(2:end,i)); 
property train{i}.name=train(1,i); 
property train{i}.val num=1/length (Property train{i}.val); 
end 
p_class=zeros (1,1length (class)); 
for i=1:Ni 
for j=1:length (class) 
if isequal (class(j),train(i+1,end)) 
p classlj})=p class(j)*1 
end 
end 


end 
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for 


i=1:M 


p{i}.property=zeros (length (property train{i}.val),1length(class)); 


for j=1:length (property train{i}.val) 


for m=1:length (class) 


isequ: 


a=0; 
for k=1:Ni 
让 
al (train (k+1,i),property train{i}.val(j))&&isequal (train (krl,end) ,class (m) ) 
a=a+l1; 
end 
end 
p{i}.property(j,m)=a/p_class (m); 
if pt{i}.property (j,m)==0; 
Pp{i}.property (j,m)=(1/Ni)/(p_class (m) +property train{i}.val num/Ni); 


end 


end 


end 


end 


p_class=p_class./Ni;classl=cell (1, sample num); 


for i=1:sample num 


a=O: 


nes (l,length (class)); 


for j=l1:length (class) 


for k=L:M 


下 GE m=1:length (property train{k}.val) 
if isequal (sample (i,Kk),property train{k}.val (m)) 
al(l,j)=a(l,j)*p{k}.property (m,j) 
end 


end 


end 


pl1(i,j)=a(l,j)*p_class(j); 


end 


[a, 


end 


b]=max (pl (i,:)); classl{i}=class (b); 


例 2.45 为 分 析 求解 毕业 生 就 业 预 测 问题 ， 给 出 学 生 就 业 数据 如 表 6.3 所 示 ， 其 来 源 于 某 高 


校 学 4 
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表 6.3 ”学 生 就 业 数据 表 


























性 别 就 业 
male yes 
male no 
female yes 
male yes 
male no 
female no 
male yes 
female yes 
male yes 
male no 
male yes 
female yes 
female yes 
male yes 
male no 
female S S yes 


解 : 

在 实际 利用 朴素 贝 叶 斯 网 络 法 进行 分 类 时 ,可 能 会 遇 到 以 下 三 种 情况 : 一 是 属性 为 连续 属性 ; 
二 是 条 件 概率 为 零 ， 三 是 缺少 某 个 属性 值 。 

本 例 中 ， 其 中 综合 成 绩 是 一 个 连续 属性 ， 此 时 通常 假定 该 属性 服从 高 斯 分 布 , 并 按 下 式 计算 
概率 





1 
Perlo) -sto 7 


其 中 : 给 定 类 G; 的 训练 样本 属性 x 的 值 ; g(xr» Ke,» co) 是 属性 的 高 斯 密度 函数 ; hv oa 分 
别 为 平均 值 和 标准 差 。 
当 条 件 概 率 为 零 时 ， 可 以 用 下 式 计算 : P(x |c) = 一 ， 其 中 为 类 ci; 中 的 样本 常数 ， 


ne 是 类 6 的 训练 样 集中 取 值 为 x 的 样 例 数 , 1 是 称 i 而 zp 是 用 户 指定 的 参数 ， 
可 以 看 作 是 在 类 6c; 的 记录 中 观察 属性 值 x 的 先 验 概率 。 决 定 先 验 概率 和 观察 概率 之 间 的 概率 。 


ne -一 
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对 于 概率 值 ， 即 使 每 个 乘积 因子 都 不 为 零 , 但 当 较 大 时 ,也 可 能 几乎 为 零 ， 此 时 难以 区 分 不 
同类 别 。 为 解决 这 个 问题 ， 可 以 将 乘积 问题 转化 为 加 法 计算 问题 以 避免 “溢出 ”。 





logPGx lc)=logPGC)+> logPoxlc) 


=] 


根据 以 上 的 处 理 方法 ， 可 编程 计算 本 例 。 
>> train ={' 性 别 '' 学 生 干 部 ' ' 优 秀 毕 业 论 文 ' "学 位 获得 ' “综合 成 绩 ' ' 就 业 ' 
“ae “no "no "no 0 yes maler yes yes» "Ves 16 nos" female “no ne 
"no' 95 "yes';'male’ "yes' "yes' "yes' 80 "yes'7"male' "no"' 'yes’ "no' 79 
ou Ene no on ng 39 mo male yes Yes yes 719 Ves er Temale, 
"no "no Wno” (09 Ves male non non "no 86 Yes male yes Yes, "no" 
75 ‘no' 'male' "yes' 'no' "yes' 80 "yes' 'female' 'yes' "yes' "yes' 90 
'yes';'female' 'no' 'yes' 'yes' 95 'Yyes' 'male' 'no' 'no' 'yes' 90 'yes';'"'male' 
"no' 'no' 'yes' 80 'no';female' 'yes' 'no' 'yes' 80 'yes';'female' 'no' 'no' 'yes' 
D0 Pyes alen no > Ves yes 92 "yes rs maler moO “no no 712 no We 
nO "Vass yes B95 Vos 
sample={ male' "yes’' ‘no’ "no" 82;"'female'" ' " "yes' "no' 88}; 
numeric=[5]; 
classl=bayesnetl (train, sample, numeric); 


>>class1l{1}="'no' classl{2}='yes' 


例 2.46 利用 TAN 贝 叶 斯 网 络 对 例 2.43 的 数据 进行 分 类 分 析 。 

解 : 

首先 确定 TAN 贝 叶 斯 网 络 结构 ， 其 方法 : 一 种 是 首先 给 变量 排序 ， 然 后 确定 变量 之 间 的 条 
件 独立 性 ， 再 根据 变量 的 关系 确定 网 络 结构 ; 另 一 种 方法 ( 更 为 常用 ) 是 用 户 根据 变量 之 间 的 因 
果 关 系 (根据 用 户 的 已 有 知识 ) 来 建立 网 络 结构 。 

然后 再 构造 TAN 分 类 器 ， 其 方法 : 一 种 是 由 Friedman 等 人 提出 的 基于 分 布 的 构造 方法 ; 另 
一 种 是 由 Eamonn 和 Pazzani 提出 的 基于 分 类 的 构造 方法 。 基 于 分 类 的 方法 的 分 类 性 能 比 基 于 分 
布 的 方法 的 分 类 性 能 更 优 , 但 是 ,由 于 每 条 增强 弧 的 选择 都 需要 评估 函数 的 评测 ， 所 需 的 构造 时 
间 比 基于 分 布 的 方法 所 需 的 时 间 长 得 多 。 

根据 以 上 原理 ， 可 编程 对 问题 进行 分 析 ， 其 中 TAN 结构 为 图 6.4 所 示 。 














图 6. 4 TAN 结构 
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>>train ={'"'age''income' "student' 'credit rating' 'Class:buys-computer'; 
'&30' "high' 'no' "fair' ‘'no';'<30" 'high' 'no' "excellent' 'no'; 
YI-AD0 "hiogh, "no "talrs yes? A0 medium Far yeast 
'>40' 'low' 'yes' 'fair' "yes'7'>40' 'low' 'yes' 'excellent' 'no'; 
'31..40' "low' 'yes' 'excellent' 'yes';'<30''medium' 'no' "fair' "no"7 
"307 LOW Ves” "falr, ves" > A0 medium "ves "fair Mes 
"和 30' 'medium' 'yes' 'excellent' 'yes';'31...40' 'medium' 'no' 'excellent' 'yes'; 
'31..40' "high' 'yes' "fair' 'yes';'>40' "medium' 'no' 'excellent' 'no'}; 
sample={"'<30"' 'medium"' "Yes" 人吉 
str (1) .net=2; str (2) .net=3;str(3) .net=[];str(4) .net=1; 
>>class=bayesTAN (train, sample, str) 
>>class{1}='yes"' 
例 2.47 应 用 无 约束 贝 叶 斯 网 络 方法 对 例 2.43 的 数据 进行 分 类 分 析 。 
解 : 
根据 无 约束 贝 叶 斯 网 络 方法 的 原理 ,构造 如 图 6.5 所 示 的 无 约束 贝 叶 斯 网 络 结构 ， 并 据 此 编 
旦 ,得 到 如 下 的 结果 。 此 结果 与 前 例 有 所 差异 , 这 是 由 本 例 中 各 节点 的 条 件 概 率 计算 方法 与 前 不 
同 所 引起 的 。 
>>1oad mydata;sample={'<30' 'medium' 'yes' 'fair'}; 
>>str(1) .net=[2 4 5];str(2) .net=[];str(3) .net=2;str(4) .net=[];str(5) .net=37 
>> classl=bayesTAN] (train, sample, str); 


>> Class1="no" 


Xu 
图 6.5 无 约束 贝 叶 斯 网 络 结构 

例 2.48 对 于 贝 叶 斯 判别 ，MAILAB 中 提供 了 NaiveBayes 类 ， 可 以 根据 训练 集 创建 一 个 类 
对 象 , 一 个 类 对 象 定义 了 一 个 朴素 贝 叶 斯 判别 分 类 器 , 利用 这 个 分 类 器 便 可 以 对 未 知 类 别 的 样本 
进行 分 类 。 

试 利用 NaiveBayes 类 函数 对 某 葡 萄 酒 数据 库 进 行 分 析 , 数据 库 为 178x14 矩阵 ， 其 中 前 两 列 
为 类 别 号 , 后 13 列 为 决定 酒 质量 的 13 个 属性 , 包括 Alcohol、 Malic acid、 Ash 、Alcalinity of ash、 
Magnesium 、Total phenols 、Flavanoids 、Nonflavanoid phenols、Proanthocyanins 、Color intensity、 
Hue 、OD280/OD315 of diluted wines 和 Proline 等 指标 。 
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解 : 

>> a=dlmread ('D: \wine.txt');class=a(:,1); 

>> winel=a(1:59,2:end) ;wine2=a(60:130,2:end) ;wine3=a(131:178,2:end); 

>> prel=obj .predict (winel); 

>> obj=NaiveBayes.fit (a(:,2:end),class); $ 创 建 一 个 NaiveBayes 分 类 器 

>> prel=obj .predict (winel) ; $ 对 第 1 类 酒 的 样本 进行 预测 

从 结果 看 ， 样 本 全 部 分 类 正确 。 

例 2.49 ”朴素 贝 叶 斯 分 类 假定 类 条 件 独 立 ， 即 给 定 样本 的 类 标号 ， 属 性 的 值 相互 条 件 独立 。 
但 在 实践 中 变量 之 间 的 依赖 可 能 存在 。 

贝 叶 斯 信念 网 络 说 明 联合 条 件 概率 分 布 , 它 允 许 在 变量 的 子 集 间 定 义 类 条 件 独立 性 , 它 提 供 
一 种 因果 关系 的 图 形 。 

假设 某 服装 零售 商 在 城市 A 和 B 各 开设 一 家 服装 店 ( 店 1 和 店 2 ), 均 四 季 销 售 。 该 零售 商 
对 三 种 服装 尤为 关注 : 某 品牌 大 衣 、 某 品牌 衬衫 和 某 品牌 裤子 ,关注 内 容 包括 服装 面料 的 重量 ( 轻 、 
中 等 、 重 ) 和 颜色 (暖色 、 中 度 、 冷 色 )。 

表 6.4 为 这 三 种 服装 的 销售 情况 统计 表 ; 表 6.5 为 服装 的 相关 数据 统计 表 。 请 对 此 数据 集 进 
行 分 析 ， 以 帮助 零售 商 做 出 决策 。 

表 6.4 ”服装 销售 情况 统计 表 〈 件 ) 

















解 : 

建立 一 个 贝 叶 斯 网 络 ， 它 需 考虑 两 个 方面 因素 : 变量 间 的 关系 和 相关 的 局 部 概率 。 

该 零售 商 共有 5 个 变量 : 季节 、 地 点 、 服 装 购买 量 、 面 料 重量 和 颜色 。 在 这 些 变量 中 ,季节 
和 其 他 变量 均 无 关系 ( 冬天 购买 衬衫 并 不 代表 夏天 来 了 )。 因 此 将 代表 季节 变量 的 节点 置 于 贝 叶 
斯 网 络 的 顶端 ， 也 即 意味 着 该 变量 与 其 他 变量 不 存在 相关 关系 。 

同样 ,地 点 也 与 其 他 变量 无 关 , 因此 也 置 于 贝 叶 斯 网 络 的 顶端 。 面 料 的 重量 和 颜色 要 到 购买 
的 时 候 才 能 知道 , 因此 代表 服装 购买 量 的 变量 节点 被 插 在 贝 叶 斯 网 络 中 , 且 弧 线 分 别 指向 面料 重 
量 节 点 和 颜色 节点 。 
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建立 贝 叶 斯 网 络 的 第 二 点 是 明确 每 个 节点 的 概率 表 中 的 数据 。 根 据 表 2.42 和 表 2.43 中 的 数 
据 可 以 得 到 图 6.6 所 示 的 贝 叶 斯 网 络 图 。 


A: 季节 





春 季 (a) 0. 25 
夏 季 (o) 0.25 
秋 季 (o) 0.25 
冬 季 (a9 0.25 





EE 
3 


Pt 


PopppPpp pp 
Ct 
ag 


er 





C: 面料 重量 D: 颜色 








概率 指 标 
PC 上 轻 c) ”中 等 ec) 重 (9) PDID 暖色 (dy) ”中 度 (4) 冷色 (四 
i 0. 10 0.20 0.70 x 0.10 0.30 0. 60 
x 0.20 0.60 0.30 志 0.70 0.20 0.10 
Xs 0. 50 0.40 0.10 x 0.30 0.40 0.30 








图 6.6 贝 叶 斯 网 络 图 
根据 图 6.6 所 示 的 贝 叶 斯 网 络 图 就 可 以 计算 各 种 情况 下 的 概率 。 例 如 计算 店 2 冬季 的 面料 为 
轻 、 颜 色 为 中 度 的 裤子 的 购买 概率 : 
p(A4=a,,B=b,C=c.D=4d,,X =%) 
= p( 季 节 = 冬 季 )X p( 地 点 = 店 1) x (服装 = 裤子 | 季节 = 冬季 且 地 点 = 店 1) 
xp x 面料 = 轻 | 服装 = 裤子 ) x pp 侨 色 = 中 度 | 服装 = 裤子 》 
=p(4=a) x p(B=8)xp(X=s14=0 B=-h)xp(C=alX=s) 
PX (p=qdyl X=x3) xX p (P=q,l X=x) 
=0.25x0.4x0.05x0.50x0.40= 0.001 
显然 , 在 店 1 所 在 城市 1， 冬 天 对 于 面料 重量 为 轻 、 色 彩 为 中 度 的 裤子 的 需求 量 不 大 。 用 同 
样 的 方式 可 以 计算 出 任何 季节 、 地 点 、 服 装 种 类 、 面 料 重量 和 颜色 各 种 组 合 的 概率 。 
在 贝 叶 斯 网 络 上 还 可 以 计算 出 每 个 节点 的 先 验 概率 。 例 如 一 件 大 衣 的 先 验 概率 如 下 : 
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P( 大 衣 )= p(X = 区 ) 

p(X=m|A=aNB=b)p(4=a NB=6) 
p(X=m|A4=a NB=b,)p(4=a NB=b,) 
p(X=m|A4=a NB=b)p(4=a,NB=b) 
p(X =n 14=a NB=b)p(4=anN B=b,) 
+p(X=m|A4=aNB=b)p(4=a, B=4) 
+p(X=m%|A=a NB=b,)p(4=a;N B=b,) 
+p(X=m|A=aNB=b)p(4=aNB=b) 
+p(X=m|A4=a B=b,)p(4=a, B=%b,) 
=0.30x0.10+0.20x0.15+0.10x0.10+0.05x0.15 
+0.40x0.10+0.20x0.15+0.60x0.10+0.30x0.15=0.2525 


计算 中 已 经 假定 季节 和 地 点 是 相互 独立 的 ， 因 此 : p(A Nn B)= p(4)p(B) 也 可 以 计算 后 验 
概率 。 例 如 : 





Pp( 大 衣 


香 - PR ee 
P( 冬 节 | 大衣) 一 委 市 让 大 家 了 


而 : 


P( 冬 节 阁 大 衣 上 厂 p( 冬 节 站 n 店 1n 大 衣 ) 十 p( 冬 节 几 店 2 nn 大 衣 ) 
三 p( 冬 节 ) p( 店 1) p( 大 衣 | 季节 门店 D) 
tp《 冬 节 》p( 店 2) 《大 衣 | 季节 咯 店 2) 
=0.25xQ0. 4x0. 6+Bk5xg36&105 


则 : 


冬 ___P( 大 衣 ) 0.2525 _ 
人 忆 ( 冬 节 大 衣 ) ”0.105 ny 





这 样 , 贝 叶 斯 网 络 就 能 根据 p( 冬 季 | 大 衣 )、p( 春 季 | 大 衣 )、p( 夏 季 | 大 衣 ) 和 p( 秋 季 | 大 衣 ) 
之 间 的 最 大 后 验 概率 做 出 一 个 季节 选择 的 决定 ， 以 确定 各 商店 的 销售 策略 。 

例 2.50 福尔摩斯 先生 在 他 的 办 公 室 工作 时 接 到 了 他 邻居 华 生 的 电话 。 华 生 告诉 他 : 他 的 家 
里 可 能 进 了 窍 贼 ， 因 为 他 家 的 警 铃 响 了 。 

被 告知 有 和 窃贼 冯 入 ,福尔摩斯 迅速 开车 回 家 。 在 路 上 ,他 听 广 播 得 知 他 家 那里 发 生 了 地 震 。 
地 震 也 有 可 能 引起 警报 。 这 样 ， 请 问 福尔摩斯 先生 应 该 回 家 抓 贼 还 是 迅速 撤离 该 地 区 以 躲避 地 
震 ? 图 6.7 为 计算 所 需 的 各 概率 。 
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A E 
盗贼 (8) (E ) 地 震 Wy R | n yy 
n | 0.99 0.35 n | 0.999 0.01 
y | 0.01 0.65 y | 0.001 0.99 








营 锥 广播 
加 3 p(E)=(0. 99, 0.01) p(B)=(0.90,0.10) 


电话 (由 E=n Ey 
W | B=n B=y B=n B=y 


n | 0.99 0.10 0.10 0.01 











y |0.01 0.90 0.90 0.99 


图 6.7 网 络 结构 图 及 各 类 概率 值 

解 : 
利用 网 上 下 载 的 贝 叶 斯 网 络 工具 箱 FullBNT-1.0.4 求解 本 问题 。 

在 路 上 的 福尔摩斯 需要 判断 是 盗贼 还 是 地 震 导致 警 铃 ?如 果 是 前 者 , 他 需要 回去 抓 贼 , 若是 
后 者 ， 则 要 逃离 地 震 区 。 

所 以 图 中 虽然 有 5 个 节点 ， 地 震 并 不 100% 导 致敬 铃 ， 警 铃 也 不 100% 导 致 的 电话 。 

但 是 我 们 在 得 到 电话 听 到 警 铃 的 情况 下 ， 可 以 通过 计算 盗贼 导致 警 铃 的 概率 pl， 和 地 震 导 
致 警 铃 的 概率 ppl 来 进行 决策 ， 也 可 以 计算 在 地 震 发 生 条 件 下 ， 盗 贼 导 致 警 铃 的 概率 p2。 如 果 
p2 比 pl 小 ， 说 明 新 添加 的 条 件 E 才 是 导致 A 的 主要 原因 。 








N= 32 $ 三 个 节点 ,分别 是 B、E、A 
dag = zeros(N,N);B = 1;E=2;A=3; 

dag(B,A) = 1;dag(E,A) = 1; % 节 点 之 间 的 连接 关系 
discrete nodes = 1:N; gs 离 散 节点 

node sizes = 2*ones (1,N); gs 节点 状态 数 


bnet =mk bnet (dag,node sizes, 'names',{ 'BB','EE','AAA'}, 'discrete',discrete nodes); 
bnet .cPD{B} = tabular CPD(bnet,B, [0.9 0.1]); s 手 动 输入 的 条 件 概率 
bnet.CPD{E} = tabular CPD(bnet,E, [0.99 0.01]); 

bnet .CPD{A} = tabular CPD(bnet,A,[0.99 0.1 0.1 0.01 0.01 0.9 0.9 0.99]); 


draw_ graph (dag); sg 画 贝 叶 斯 结构 图 如 图 6.8 所 示 
engine = jtree inf engine (bnet); sg 使 用 联合 树 引 擎 对 贝 叶 斯 网 络 进行 推断 


s# 求 解 边缘 分 布 假设 ， 计 算 盗 窃 导 致 响 铃 的 概率 
evidence = cell(1,N) evidence{A} = 2; 
[engine, loglik] = enter evidence (engine, evidence); 


marg = marginal nodes (engine, B); 
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pl = marg.T (2); 

pl=0.8412 sg 盗贼 导致 党 铃 的 概率 

$ 现 在 添加 地 震 的 证 据 观 察 它 有 什么 不 同 

evidence{E} = 2; 

[engine, loglik] = enter evidence (engine, evidence); 

marg = marginal nodes (engine, B); 

p2 = marg.T(2); 

2=0.1089 $ 结 论 是 地 震 更 能 解释 响 铃 这 个 主要 事实 

















图 6.8 三 节点 贝 叶 斯 网 络 结构 图 
现在 添加 RR 和 W 两 个 节点 ， 再 进行 相关 的 计算 。 
N = 5; $ 三 个 节点 , 分 别 是 B、E、A、R、W 
dag = zeros(N,N);B = 1;E=2;A=3; R= 4; W=5; 
dag(B,A) = 1;dag(E,A) = 1; dag(E,R) = 1;dag (A,W) = 1; g 节 点 之 间 的 连接 关系 
discrete nodes = 1:N; s 离 散 节点 
node sizes = 2*ones(1,N); 节点 状态 数 
bnet =mk bnet (dag,node sizes, 'names',{ ' BB','EE','AAA','RR','WWW'},'discrete 
',discrete nodes); 
bnet .CPD{B} = tabular CPD (bnet,B, [0.9 0.1]); s 手 动 输入 的 条 件 概率 
tabular_CPD (bnet,E, [0.99 0.01]) 7 


bnet .CPD{E} 
bnet .CPD{A} 


tabular CPD(bnet,A, [0.99 0.1 0.1 0.01 0.01 0.9 0.9 0.99]); 
bnet .CPD{R} tabular CPD (bnet,R, [0.999 0.01 0.001 0.99]); 

bnet .CPD{W} = tabular CPD(bnet,W, [0.99 0.35 0.01 0.65]); 

draw graph (dag); $ 画 贝 叶 斯 结构 图 如 图 6. 9 所 示 

engine = jtree inf engine(bnet); 8 使 用 联合 树 引擎 对 贝 叶 斯 网 络 进行 推 煌 

s# 求 解 边缘 分 布 假设 ， 计 算 盗 窃 导 致 响 铃 的 概率 


evidence = cell(1,N) ;evidence{RA} = 2; 
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[engine, loglik] = enter evidence (engine, evidence); 
marg = marginal nodes(engine, B); 

pl = marg.T(2); 

p1=0.8412 s% 盗 贼 导 致敬 铃 的 概率 
$ 现 在 添加 地 震 的 证 据 观 察 它 有 什么 不 同 

evidence{E} = 2; 

[engine, loglik] = enter evidence (engine, evidence); 
marg = marginal nodes (engine, B); 


p2 = marg.T(2); 
p2=0.1089% $ 结 论 是 地 震 更 能 解释 响 铃 这 个 主要 事实 














图 6.9 五 节点 贝 叶 斯 网 络 结构 图 

从 运行 结果 可 看 出 R、W 节点 对 决策 无 影响 。 
s% 联 合 概率 分 布 
evidence = cell1(1,N) 
[engine, 11] = enter evidence (engine, evidence); 
m = marginal nodes (engine, [B E A]); 
>> mT 
ans(:,:,1) =0.8821 0.0009 

0.0099 0.0000 
ans(:,:,2) =0.0089 0.0081 

0.0891 0.0010 
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7.1 支持 向 量 机 概述 


传统 的 统计 研究 方法 都 是 建立 在 大 数 定理 这 一 基础 上 的 渐进 理论 ， 要 求学 习 样 本 数目 足够 
多 。 然 而 在 实际 应 用 中 , 由 于 各 个 方面 的 原因 ， 这 一 前 提 往 往 得 不 到 保证 。 因 此 在 小 样本 的 情况 
下 ， 建 立 在 传统 统计 学 基础 上 的 机 器 学 习 方 法 ， 也 就 很 难 取得 理想 的 学 习 效果 和 泛 化 性 能 。 

针对 小 样本 问题 ， 以 Bell 实验 室 VVapnik 教授 为 首 的 研究 小 组 从 20 个 世纪 60 年 代 开 始 ， 
就 致力 于 这 个 问题 的 研究 , 并 提出 了 统计 学 习 理论 ( Statistical Leaming Theory，SLT )。 支 持 向 量 
机 (Support Vector Machine，SVM ) 即 是 统计 学 习 理 论 发 展 的 产物 。 针 对 有 限 样本 情况 ，SVM 
建立 了 一 套 完 整 的、 规范 的 基于 统计 的 机 器 学 习 理论 和 方法 , 大 大 减少 了 算法 设计 的 随意 性 , 克 
服 了 传统 统计 学 中 经 验 风险 与 期 望 风险 可 能 具有 较 大 差别 的 不 足 。 目 前 ，SLT 和 SVM 已 成 为 继 
人 工 神经 网 络 以 来 机 器 学 习 领 域 中 的 研究 热点 , 在 模式 识别 、 函 数 吾 迫 、 概 率 密度 估计 、 降 维 等 
方面 获得 越 来 越 广泛 的 应 用 。 
与 神经 网 络 相 比 ，SVM 有 坚实 的 统计 学 基础 ， 它 具有 以 下 优点 。 
(1 ) 以 结构 风险 最 小 原理 为 基础 ， 减 少 推广 错误 的 上 界 ， 具 有 很 好 的 推广 性 能 ， 解 决 了 神 
经 网 络 的 过 拟 合 问 题 。 

(2 ) 问题 的 求解 等 价 于 线性 约束 的 凸 二 次 规划 问题 ， 具 有 全 局 最 优 解 ， 解 决 了 神经 网 络 的 
局 部 极 小 问题 。 

(3 ) 把 原 问题 映射 到 高 维 空间 ， 通 过 在 高 维 空间 构造 线性 分 类 函数 来 实现 原 问题 的 划分 ， 
引入 核 函 数 ， 解 决 了 维 数 灾难 问题 。 

对 于 两 类 线性 可 分 问题 ， 如 图 7.1 所 示 。 分 割 线 (平面 1 ) 1 和 分 割 线 (平面 2 ) 2 都 能 正确 地 
将 两 类 样本 分 开 ， 即 都 能 保证 使 经 验 风险 最 小 ( 为 0 )， 这 样 的 线 (平面 ) 有 无 限 多 个 ， 但 分 制 线 1 
离 两 类 样本 的 间隙 最 大 ， 称 为 最 优 分 类 线 (平面 )。 最 优 分 类 线 (平面 ) 的 置信 范围 最 小 。 



























































分 割 线 2 
分 割 线 1 





图 7.1 支持 向 量 机 原理 示意 图 

设 线性 可 分 样本 集 为 (页 , Fi) (天 .203; ER 7yE{-1J 是 类 别 标号 )。d 维 空间 中 线 
性 判别 函数 的 一 般 形 式 为 gCD= 丈 * 共 D， 分 类 面 方程 为 
WX+b=0 

将 判别 函数 归 一 化 ， 然 后 等 比例 调节 系数 天 和 b， 使 两 类 所 有 样本 都 能 满足 le(D| 宇 1， 这 时 
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分 类 间隔 为 2 省 下。 这 样 将 求 间隔 最 大 变 为 求 | 到 | 最 小 。 
满足 leCDI=1 的 样本 点 ， 离 分 类 线 (平面 ) 距离 最 小 。 它 们 决定 了 最 优 分 类 线 (平面 )， 称 


为 支持 向 量 机 ( support vectors，SV )， 图 中 带 斜 线 的 3 个 样本 即 为 SV。 
可 见 ， 求 最 优 分 类 面 的 问题 转化 为 优化 问题 


ning 站 = 了 lv 人 = 二 OF-) 





st y[(weA)+b] 10 (i=1,2,…,n) 


本 优化 问题 可 转化 为 对 偶 化 问题 
mi Oa) = 了 立 aapy EX) -Yo, 


st 0 过 0 (=1,2,…,n) 


pa =0 


为 叙述 和 求解 的 方便 ， 将 上 式 改写 成 矩阵 形式 


min O(aw) = Sa da 一 Draw 
st @ 0 (i=1,2,-…,n) 


ya=0 
式 中 : a= (cbao sam), b=) yay2, 7 yn), A yD (xi )o 
由 此 可 得 到 最 优 分 类 函数 为 
/0 =sen Dan CD + 
因为 对 于 非 支持 向 量 满足 a=0, 所 以 最 优 函数 只 需 对 支持 向 量 进行 , 而 ”可 根据 任何 一 个 支 


持 向 量 的 约束 条 件 求 出 。 
对 于 非 线 性 可 分 问题 可 以 把 样本 x 映射 到 某 个 高 维 空间 中 去 ,然后 在 高 维 空间 中 , 使 用 上 


面 的 方法 。 设 该 映射 为 B 

















CAG 
x > DX)= A 


上 述 的 对 偶 问 题 变 为 
minQ(@) =D0 -TF 0 p90 DY) 
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分 类 函数 为 


d(x) =w D(X) +b = 立 ap DH)DE) +D 


| 


可 以 看 出 ， 它 只 涉及 样本 变换 高 维 空间 的 内 积 ， 而 这 种 内 积 可 以 用 原 空间 的 函数 来 实现 。 


7.2 ，” 核 函数 
对 于 线性 不 可 分 问题 ， 有 两 种 解决 途径 , 一 是 一 般 线性 化 方法 ， 引 入 松弛 变量 ， 此 时 的 优化 
问题 为 


ming0m= 二 ne- 二 OrD+C 六 < 
fi=1 


st. plek)+b] 1+ 0 (=1,2,,n) 

二 是 VVapnik 引入 的 核 空间 理论 : 将 低 维 输入 空间 中 的 数据 通过 非 线性 函数 映射 到 高 维 属 
性 空间 五 (也 称 为 特征 空间 )， 将 分 类 问题 转化 到 属性 空间 进行 。 可 以 证 明 ， 如 果 选 用 适当 的 映 
射 函数 ， 输 入 空间 线性 不 可 分 问题 在 属性 空间 将 转化 成 线性 可 分 问题 。 

因此 ， 如 果 能 找到 一 个 映射 函数 使 得 , 蔗 ,) = (D(X,),D(CX,)) ， 这 样 在 高 维特 征 空间 中 
实际 上 只 需 进行 内 积 运算 , 而 这 种 内 积 运算 可 以 用 输入 空间 中 的 某 些 特殊 函数 来 实现 , 甚至 没有 
必要 知道 变换 的 具体 过 程 。 这 种 特殊 的 函数 称 为 核 函 数 。 根 据 泛 函 的 有 关 理 论 ， 只 要 核 函数 满足 
Mercer 条 件 ， 它 就 对 应 某 一 变换 空间 中 的 内 积 。 

Mercer 定理 将 核 解释 为 特征 空间 的 内 积 , 它 将 低 维 向 高 维 映射 , 却 不 需要 过 多 地 考虑 维 数 对 
学 习 机 器 性 能 的 影响 。 核 函数 是 支持 向 量 机 的 重要 组 成 部 分 。 根 据 Hilbert-Schmidt 定理 ,只 要 变 
换 更 满足 Mercy 条 件 ， 就 可 以 构建 核 函数 。Merey 条 件 如 下 : 给 定 对 称 函数 Kxy) 和 任意 函数 
9 (xz) #0， 满足 约束 


代 gz(x)dx<0 


[三 FenDeocopO)drdty>0 
引入 核 函数 后 ， 以 上 各 式 中 向 量 的 内 积 都 可 用 核 函 数 代 蔡 
ming(w = > aapyy KD) -Do 
st w 0 (i=1,2,…,n) 
Yue =0 
相应 的 分 类 函数 变 为 一 
f=sen (Dan KE +b) 


任 选 一 支持 向 量 ， 可 从 下 式 求 出 
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yay KE +6]=1 


目前 使 用 的 核 函数 主要 有 4 种 : 线性 核 函 数 、P 阶 多 项 式 核 函 数 、 多 层 感知 器 核 函 数 和 RBF 
核 函 数 。 

(1 ) 线性 核 函 数 : K(X,Y)=(: 了 ) 

(2 ) 多 项 式 核 函 数 : (了, 了 )=《(( 下 -了 )+c)? ,其 中 <。 为 常数 、p 为 多 项 式 阶 数 ， 当 c=0, p=1 
时 即 为 线性 核 函 数 。 

(3 ) 多 层 感知 器 核 函 数 ( Sigmoid ): K(X, 了 ) = tanh(scalex( 卫 -了 ) 一 offser) ,其 中 scale 和 offser 





2 
(4 ) RBF 核 函 数 ， rn-en| St 其 中 | XX 了 | 为 两 个 向 量 之 间 的 距离 ，c 为 


常数 。 

从 上 述 的 讨论 可 以 看 出 ， 应 用 SVM 进行 分 类 的 步骤 为 : 

选择 合适 的 核 函 数 。 

@ 求解 优化 方程 ， 获 得 支持 向 量 及 相应 的 Lagrange 算 子 。 

图 写 出 最 优 分 界面 的 方程 。 

@ 根据 sgn(9) 的 值 ， 输 出 类 别 。 

图 7.2 为 SVM 的 结构 示意 图 。 支 持 向 量 机 利用 输入 空间 的 核 函 数 取 代 了 高 维特 征 空间 中 的 
内 积 运 算 ， 解 决 了 算法 可 能 导致 的 “ 维 数 灾难 ”问题 : 在 构造 判别 函数 时 ， 不 是 对 输入 空间 的 样 
本 作 非 线性 变换 , 然后 在 特征 空间 中 求解 , 而 是 先 在 输入 空间 比较 向 量 , 对 结果 再 作 非 线性 变换 。 
这 样 大 的 工作 量 将 在 输入 空间 而 不 是 在 高 维特 征 空 间 中 完成 。 


输出 






权 值 


K(X1,X) 本 
基于 支持 向 量 的 非 线性 变换 一 一 核 函数 


输入 向 量 X= (Cao2oxaoxa) 


图 7.2 SVM 的 结构 示意 图 
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7.3 基于 MATLAB 的 支持 向 量 机 方法 


基于 MATLAB 的 支持 向 量 机 在 解决 实际 问题 时 ， 既 可 以 根据 支持 向 量 机 的 原理 自己 编程 ， 
也 可 以 利用 MATLAB 中 的 自 带 函数 或 者 各 种 支持 向 量 机 软件 包 。 

例 2.51 试用 支持 向 量 机 ， 对 表 7.1 中 的 企业 家 综合 素质 作出 更 为 有 效 的 评价 ,其 中 五 为 各 项 
指标 。 

解 : 

在 MATLAB 中 ,向 量 机 的 训练 、 分 类 函数 分 别 是 svmtrain 和 svmclassify。 一 个 向 量 机 只 能 
解决 二 类 分 类 问题 ， 而 本 例 是 一 个 三 类 分 类 问题 且 每 类 样本 数 较 少 , 所 以 用 三 个 分 类 器 , 核 函数 
为 较为 简单 的 一 阶 多 项 式 。 


>>1oad 





mydata;high=mydata (1:3, :) ;mid=mydata (4:6,:);low=mydata(7:9, :) ;test=mydata (10: 
+ 
>>num=nchoosek (1:3,2); ”$1,2,3 三 个 数字 两 两 配对 ，1 代 表 高 ，2 代 表 中 ，3 代 表 低 
>>Training={high,mid, low};SVM=cell (size (num,1),1); $ 元 胞 形式 的 训练 集 及 SVM 
>>for k=1:size (num,1) 
tl=Training{num(k,1)}; t2=Training{num(k,2)}; s 配 对 组 成 训练 集 
SVM{k}=svmtrain([t1;t2], [ones (size (tl,1),1)7;zeros (size(t2,1),1)]，'Kernel 
function',.. 
'polynomial', 'polyorder',1); 训练 函数 
end 
>>for kk=1:size (test,1) 
for k=1:length (SVM) 
result (k)=svmclassify (SVM{k}, test (kk, :)); % 分 类 函数 
temp (k) =num (k, 1) .*result (k) +num (k, 2) .*~result (k) ; % 每 个 分 类 器 的 分 类 结果 


end 


results (kk) =mode (temp, 2); 依据 每 个 数字 出 现 的 次 数 ， 决 定 总 的 分 类 结果 
end 
>>results 

results =2 2 s 即 都 为 中 等 素质 


表 7.1 企业 家 素质 评价 指标 数据 


Ee ee ee ee 
0.8 


8 [0.8 |o9|o7 |os |o7 |os |os |os |o7 |os |o7 lo |os |o. 
0.8 | 0.9 | 07 | 0.8 | 09 |og [|o8 [os [os [os [os | o7 | os | 07 | os 
8 | 0 7 [07 [o.8 [os [os [os [os |os |o7 |o7 |o7 | 0 
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0.8 | 0.8 


下 
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0.7 | 0.6 | 0.8 |0.7 | 0.6 | 0.7 | 0.7 
0.6 | 0.7 | 0.7 0.7 | 0.8 












0.4 | 0.5 | 0.5 | 0.5 | 0.6 0.6 | 0.7 | 0.6 | 0.6 





低 0.5 | 05 | 05 | 05 | 0.7 






































).5 ).4 用 
0.6 | 0.8 | 0.6 | 0.6 | 0.7 | 0.9 . 
Bas 
例 2.52 ”支持 向 量 机 不 仅 可 以 用 于 分 类 问题 ,也 可 以 用 于 回归 预测 。 考 虑 样本 , 其 中 Cap :Ca 
是 训练 样本 , 鉴于 大 多 数 情 况 下 样本 呈 非 线性 关系 ,估计 函数 /可 按 如 下 方法 确定 : 将 每 
一 个 样本 点 用 一 个 非 线 性 函数 6 映射 到 高 维特 征 空 间 ， 再 在 高 维特 征 空间 进行 线性 回 
归 ， 从 而 取得 在 原 空 间 非 线 性 回归 效果 ， 即 回归 函数 /可 表示 为 
fr)=wg(x)+b) 
式 中 : xER" 为 输入 向 量 ; weER" 为 权 值 矢量 ; bER 为 偏差 。 
为 了 得 到 后 两 个 参数 ， 采 用 结构 化 风险 最 小 原则 ， 可 以 将 原来 的 问题 转化 为 





minl lol2+ CP + ) 
f=1 
3 在， 芒 一 加 一 及 入 2 二 吉 
@ +b-y, et 
和 包 名 之 0 
其 中 : 上 @ 咱 是 描述 函数 /的 复杂 度 ; C>0 是 常量 ， 用 于 决定 模型 复杂 度 和 经 验 风 险 的 折 中 度 ; 
占 如 是 松弛 变量 ， 引 入 的 s 是 不 敏感 损失 函数 。 
对 于 解 上 述 凸 优 化 问题 ， 其 核心 思想 用 拉 格 朗 日 乘 子 法 把 上 面 的 优化 问题 化 为 其 对 侦 形 式 
max 3 —@; Na) -aN xz) 一 PAG 十 Cl + (a —a,) 


2773 





st 六 —@)=0 
oa el[0,c] 
在 此 对 偶 式 中 引入 核 函 数 ， 使 得 在 非 线 性 映射 函数 g 未 知 的 情况 下 能 够 用 低 维 空间 的 输入 数 
据 在 高 维特 征 空间 完成 内 积 运算 。 引 入 的 核 函数 必须 满足 Mercer 定 理 。 


此 优化 问题 可 以 用 二 次 规则 解决 。 由 于 支持 向 量 机 回归 通过 最 小 化 避免 了 数据 的 欠 拟 合 和 过 
拟 合 ， 因 此 支持 向 量 机 是 一 个 更 为 灵活 和 通用 的 解决 回归 问题 的 工具 。 
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下 面试 用 支持 向 量 机 对 春运 客流 量 进行 预测 。 下面 为 某 市 火车 站 2003 年 春节 前 后 20 天 的 旅客 
数据 。 
x=[5.3425 10.5679 14.6753 15.3289 14.287 13.6541 12.2313 9.653 11.2345 9.3578 
8.3456 7.8563 6.9682 6.3421 5.8432 6.5437 9.7685 14.3256 15.8645 14.8976] 


解 : 

选用 前 面 18 个 数据 作为 训练 值 ， 后 2 个 数据 作为 检验 。 

对 于 时 间 序 列 的 预测 ， 一 般 首先 要 确定 时 间 窗 口 m 的 值 ， 即 利用 前 m 个 序列 值 来 预测 后 面 的 
序列 值 。 可 以 采用 求 下 列 自 相关 系数 来 确定 m。 


h=mean (x) ;n=length (x) ;al=0;a2=0; 

















for i=l:n;a2=a2+(x(i)-h)^2;end 


for k=1:7;for i=k+l:n;al=al+(x(i)-h)*(x(i-k)-h);end;r (Kk)=al/a2;end 


可 以 从 x 值 确定 自 相关 系数 的 大 小 ， 从 而 确定 m 值 。 在 此 例 中 选择 m=4， 这 样 就 可 确定 输入 数 
据 和 矩阵 : 
m=4;n=length (X) 7 
for i=m+l:n 
for j=1:m;x]1 (i,j)=x(i- (m-j+1));end 
end 


X1=X1 (m+l :end, :) ;y=x (m+l :end); 


然后 就 可 以 用 支持 向 量 机 回归 函数 进行 预测 。 

为 了 更 好 地 得 到 预测 结果 , 首先 用 遗传 算法 对 支持 向 量 机 中 的 相关 参数 进行 优化 。 编写 下 列 
的 适应 度 函 数 : 
function Y=mySVM ga train(x) 
RX=LS I425 10.5679 L46753. 15-.3209 145287 138654T 25231339.653 LL.2345 9.3579 

8.3456 7.8563 6.9682 6.3421 5.8432 6.5437 9.7685 14.3256]; 
m=4; [xl1,y]=timeinput (xx,m); 
ker = struct('type', 'gauss', 'width',x(1));C=x(2) ;nu=x (3); s% 高 斯 核 函 数 及 相应 的 参数 
svm=mysvmRegression('svr nu',x1',y,ker,C,nu); gs 训练 函数 
yl=mysvmSim(svm, [5.8432 6.5437 9.7685 14.3256;6.5437 9.7685 14.3256 16.8645] ') ; $ 仿 真 
y=(Y1(1)-15.8645)^2+(yl1 (2)-14.8976) ^27 

打开 遗传 算法 GUI 界 面 ， 输 入 相关 的 参数 就 可 以 计算 ,一 次 得 到 如 下 的 结果 : 

核 参数 sigma=8.64， 惩 罚 系 数 C=19.77，/ 坟 1.52。 

利用 上 述 参数 进行 预测 ， 结 果 如 下 ， 预 测 精度 基本 满意 。 

y=mysvmSim(svm, [5.8432 6.5437 9.7685 14.3256;6.5437 9.7685 14.3256 16.8645]') 


y=16.1269 "15.0885 


如 果 训 练 数 据 能 更 多 些 ， 并 利用 交叉 法 进行 检验 ， 则 预测 精度 会 更 好 。 
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8.1 概述 


目前 , 关联 规则 分 析 已 成 为 数据 挖掘 领域 重要 的 研究 , 它 主要 研究 数据 中 不 同 领域 之 间 的 关 
系 ,， 找 出 满足 给 定 支持 度 和 可 信 度 阔 值 的 多 个 域 之 间 的 依赖 关系 。 即 相关 性 、 关 联 关系 、 因 果 关 
系 。 关 联 规则 模式 属于 描述 型 模式 ， 发 现 关 联 规则 的 算法 属于 无 监督 学 习 的 方法 。 

R.Agrawal 等 于 1993 年 提出 挖掘 顾客 交易 数据 库 中 项 集 间 的 关联 规则 问题 ,之 后 许多 关联 规 
则 的 挖掘 问 题 得 到 了 大 量 的 研究 , 包括 算法 、 效 率 等 问题 。 如 今 , 关联 规则 已 得 到 了 广泛 的 应 用 ， 
如 商品 货架 设计 、 附 加 邮递 、 目 录 设 计 、 追 加 销售 、 仓 储 规 划 以 及 基于 模式 对 客户 进行 划分 等 。 

关联 规则 是 发 现 交易 数据 库 不 同 商品 (项 ) 之 间 的 联系 , 通过 这 些 规则 找 出 顾客 购买 行为 模 
式 ， 如 购买 了 某 一 商品 对 购买 其 他 商品 的 影响 ,发现 这 些 的 规则 可 以 应 用 于 商品 货架 设计 、 货 存 
安排 以 及 根据 购买 模式 对 用 户 进行 分 类 。 现 实 中 ,这样 的 例子 很 多 。 最 典型 的 例子 是 “一 些 顾客 
在 买 婴儿 用 品 时 ， 也 同时 买 啤 酒 ”。 一 般 地 ， 若 设 商 品 排列 模式 为 x1,x2,… ,x,， 第 i 个 顾客 购买 物 
品 为 zxiz,… wxn， 同时 出 现 的 频率 较 大 , 则 可 以 考虑 将 这 两 个 模式 的 商品 摆 放 在 一 起 ,甚至 对 这 
两 类 商品 的 模式 促销 作 同 一 策划 。 特别 是 , 可 以 将 研究 两 种 不 同 模式 商品 同时 出 现 的 可 能 性 推广 
为 不 同 模式 商品 与 分 类 结果 的 可 能 性 ， 推 广 为 多 类 不 同 模式 的 前 后 多 个 时 间 段 出 现 可 能 性 的 研 
究 。 如 电子 商务 发 展 的 影响 因素 与 发 展 水 平 (结果 ) 的 相互 关系 的 可 能 性 研究 等 。 


8.1.1 关联 规则 的 主要 概念 


设 刀 是 一 个 事务 数据 库 , 其 中 每 一 事务 了 由 一 些 项 目 构成 ,并 且 都 有 一 个 唯一 的 标识 ( TID )。 
项 目的 集合 简称 为 项 目 集 , 含有 第 个 项 目的 项 目 集 称 为 项目 集 。 
项 目 集 工 的 支持 度 ( support ) 是 指 在 事务 数据 库 D 中 包含 项 目 集 卫 的 事务 占 整个 事务 的 比例 ， 
记 为 sup( 卫 )， 看 作 是 项 目 集 站 在 总 事务 中 出 现 的 概率 ， 一 般 定 义 为 
导出 现 次 数 
事务 总 数 
支持 度 是 对 关联 规则 重要 性 (或 适用 范围 ) 的 衡量 标准 。 支 持 度 说 明了 规则 在 所 有 事务 中 代 
表 性 有 多 大 。 显 然 , 支持 度 越 大 ,代表 性 越 大 ,关联 规则 也 越 重要 ， 应 用 越 广泛 。 由 于 项 目 数 通 
常 很 大 ， 所 以 ， 在 实际 应 用 中 支持 度 的 数据 一 般 都 很 小 。 
可 信和 度 ( Confidence ) 是 指 在 事务 数据 库 D 中 , 同时 含 项 目 集 开 和 了 的 事务 与 含 项 目 集 开 的 
事务 的 比 ， 即 sup(XUY)/sup(X) ， 看 作 是 项 目 集 开 的 出 现 ， 使 项 目 集 了 也 出 现 这 一 事务 在 总 事 
务 中 出 现 的 频率 ， 一 般 定 义 为 
























































(X)=P(X)% 





PQX) 、 陪 出 现 次 数 事务 总 数 T 
POF) 大 出 现 次 数 /事务 冲 数 了 
37 出 现 次 数 
工事 务 总 数 

可 信 度 是 对 关联 规则 的 准确 度 的 衡量 。 例 如 对 可 信 度 很 高 但 支持 度 却 很 低 的 关联 规则 来 说 ， 
它 的 实际 应 用 价值 很 小 ， 因 而 该 关联 规则 的 发 现 也 不 值得 重视 。 

项 目 集 长 度 为 大 的 子 集 称 为 上 子 项 目 集 。 如 果 一 个 项 目 集 不 是 任何 项 目 集 的 长 则 称 此 项 目 集 
为 极 大 项 目 集 。 如 果 项 目 集 的 支持 度 大 于 用 户 指定 的 最 小 支持 度 (min_sup ), 则 称 此 项 目 为 频繁 


Conf(Y|X)=P(Y|X)= 





=sup(XUY)/sup(X)= 
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项 目 集 ( Frequent Item Set ) 或 大 项 集 ( large Item Set )。 
关联 规则 可 形成 化 表示 为 过 了 , 它 的 含义 是 环 UY 的 支持 度 sup(XUY) 大 于 用 户 指定 的 最 
小 支持 度 min_sup, 且 可 信和 度 conf 大 于 用 户 指定 的 最 小 可 信和 度 min_conf。 关联 规则 挖掘 就 是 在 事 
务 数据 库 刀 中 找 出 满足 用 户 指定 的 最 小 支持 度 min_sup 和 最 小 可 信和 度 min_conf 的 所 有 关联 规则 ， 
据 此 关联 分 析 可 分 为 两 个 子 问题 : 
(1 ) 找 出 事务 数据 库 中 所 有 的 大 项 集 。 
(2 ) 从 大 项 集中 产生 所 有 小 于 大 于 最 小 可 信 度 的 关联 规则 。 
相对 来 说 ,第 二 个 子 问 题 比较 容易 ,目前 有 关 关 联 规则 挖掘 的 大 多 数 研究 主要 集中 在 第 一 个 
子 问题 。 关 联 规 则 描述 虽然 简单 ,但 它 的 计算 量 很 大 。 假 设 数据 库 含 m 个 项 目 , 就 有 2m 个 子 集 
可 能 是 频繁 子 集 ， 可 以 证 明 要 找 出 其 一 大 项 集 ( 大 频繁 集 ) 是 一 个 NP 问题 。 


8.1.2 ”关联 规则 的 种 类 


关联 规则 可 以 按 不 同 的 情况 进行 分 类 。 

(1) 基于 规则 中 处 理 的 变量 的 类 型 ， 关 联 规 则 可 以 分 为 布尔 型 和 数值 型 。 

布尔 型 关联 规则 处 理 的 值 都 是 离散 的 、 种 类 化 的 , 它 显示 了 这 些 变量 之 间 的 关系 ; 而 数值 型 
关联 规则 可 以 和 多 维 关 联 或 多 层 关联 规则 结合 起 来 , 对 数值 型 字段 进行 处 理 , 将 其 进行 动态 的 分 
割 ， 或 者 直接 对 原始 的 数据 进行 处 理 ， 当 然 数值 型 规则 中 也 可 以 包含 种 类 变量 。 

例如 : 性 别 =“ 女 ”一 职业 =“ 秘 书 "， 是 布尔 型 关联 规则 ; 性 别 =“ 女 ”一 avg (收入 ) = 
2300， 涉 及 的 收入 是 数值 类 型 ， 所 以 是 一 个 数值 型 关联 规则 。 

(2 ) 基于 规则 中 数据 的 抽象 层次 ， 可 以 分 为 单 层 关联 规则 和 多 层 关联 规则 。 

在 单 层 的 关联 规则 中 , 所 有 的 变量 都 没有 考虑 到 现实 的 数据 是 具有 多 个 不 同 的 层次 的 ; 而 在 
多 层 的 关联 规则 中 ， 对 数据 的 多 层 性 已 经 进行 了 充分 的 考虑 。 

例如 : IBM 台式 机 一 Sony 打印 机 ， 是 一 个 细节 数据 上 的 单 层 关联 规则 ;台式 机 一 打印 机 ， 
是 一 个 较 高 层次 和 细节 层次 之 间 的 多 层 关联 规则 。 

(3 ) 基于 规则 中 的 数据 的 维 数 ， 关 联 规 则 可 以 分 为 单 维 的 和 多 维 的 。 

在 单 维 的 关联 规则 中 ， 只 涉及 数据 的 一 个 维 ， 如 用 户 购买 的 物品 ;而 在 多 维 的 关联 规则 中 ， 
要 处 理 的 数据 将 会 涉及 多 个 维 。 

例如 ， 啤 酒 一 尿布 ， 这 条 规则 只 涉及 用 户 购买 的 物品 。 性 别 :“ 女 ”一 职业 =“ 秘 书 "， 这 条 
规则 就 涉及 两 个 数据 字段 的 信息 ， 是 两 维 上 的 一 条 关联 规则 。 


8.1.3 ”关联 规则 的 价值 衡量 的 方法 


当 通 过 合适 的 算法 得 出 了 一 些 结果 时 间 , 就 需要 对 这 些 数据 进行 衡量 , 即 判断 哪些 规则 对 用 
户 来 说 是 有 用 的 。 这 于 这 个 问题 可 以 从 用 户主 观 的 层面 和 系统 客观 的 层面 这 两 个 层面 进行 衡量 。 


1. 系统 客观 层面 


虽然 关联 规则 的 很 多 算法 都 使 用 “支持 度 一 可 信 度 ”的 框架 。 但 这 样 的 结构 有 时 会 产生 一 些 
错误 的 结果 。 
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例如 统计 了 一 定数 量 的 学 生 早晨 的 运动 类 型 ,得 到 的 结果 是 55% 的 学 生 打 篮球 ，68% 的 学 生 
展 跑 45% 学 生 晨 跑 后 打 篮 球 。 如 果 设 最 小 支持 度 为 40%， 最 小 可 信和 度 为 60%， 可 以 得 到 以 下 的 
规则 : 打 篮 球 一 晨 跑 。 但 这 个 规则 其 实 是 错误 的 。 相 反 其 否定 规则 : 打 篮 球 一 (不 ) 晨 跑 可 能 更 
精确 。 

可 以 引入 “兴趣 度 ” 来 修剪 无 趣 的 规则 ， 即 避免 生成 “错觉 ”的 关联 规则 。 一 般 一 条 规则 的 
兴趣 度 是 在 基于 统计 独立 性 假设 下 真正 的 强度 与 期 望 的 强度 之 比 。 然 而 在 许多 应 用 中 已 发 现 , 只 
要 仍 把 支持 度 作 为 最 初 的 项 集 产生 的 主要 决定 因素 , 那么 要 么 把 支持 度 设 得 足够 低 以 使 得 不 丢失 
任何 有 意义 的 规则 ,或 者 冒 丢 失 一 些 重要 规则 的 风险 ， 都 可 以 得 到 正确 的 结果 。 


2. 用 户主 观 层面 


虽然 规则 的 产生 与 算法 有 关 , 但 一 个 规则 的 有 用 与 否 最 终 取决 于 用 户 的 决定 。 所 以 在 实际 应 
用 中 , 应 将 用 户 的 需求 和 系统 更 加 紧密 结合 起 来 。 可 以 采用 一 种 基于 约束 的 挖掘 来 完成 这 个 目的 ， 
它 包 含 以 下 几 个 方面 。 

(1) 数据 挖掘。 用 户 可 以 指定 对 哪些 数据 进行 挖掘， 而 不 一 定 是 全 部 的 数据 。 

(2 ) 指定 挖掘 的 维和 层次 。 用 户 可 以 指定 对 数据 哪些 维 以 及 这 些 维 上 的 哪些 层次 进行 挖掘。 

(3 ) 规则 约束 。 可 以 指定 哪些 类 型 的 规则 是 有 用 的 维 。 通 过 引入 一 个 模板 ， 当 一 条 规则 匹 
配 模板 时 ， 可 以 确定 这 条 规则 是 令 人 感 兴趣 ， 而 哪些 则 不 然 。 


8.2 Apriori 关联 规则 算法 


Apriori 算法 是 一 种 以 概率 为 基础 的 挖掘 布尔 型 关联 规则 频繁 项 集 的 算法 。 该 算法 利用 由 少 
到 多 、 从 简单 到 复杂 的 循序 渐进 方式 ,搜索 数据 库 的 项 目 相关 关系 , 并 利用 概率 的 表示 形成 关联 
规则 。 它 的 主要 思想 是 利用 “在 给 定 的 事务 数据 库 D 中 任意 频繁 项 集 的 子 集 都 是 频繁 项 集 ; 任 
意 弱 项 集 的 超 集 都 是 弱项 集 ” 这 一 原理 ， 对 事务 数据 库 进行 多 次 扫描 ， 从 而 找到 全 部 的 频繁 集 。 
在 此 过 程 中 ， 可 以 利用 Apriori 特性 以 判断 项 集 是 否 为 频繁 集 。Apriori 特性 是 指 如 果 一 个 拥有 
个 项 目的 项 目 集 了 不 满足 最 小 支持 度 ， 则 项 目 集 7 不 是 一 个 频繁 集 ， 如 果 往 了 中 加 入 任意 一 个 新 
的 项 目 得 到 一 个 拥有 +1 项 目的 项 目 集 7 也 必定 不 是 频繁 集 。 

Apriori 算法 可 大 致 分 为 两 步 : 

(1 ) 连接 ( 类 矩阵 运算 )。 即 通过 将 两 个 符合 特定 条 件 的 大 项 频繁 项 作 连 接 运 算 ， 从 而 寻找 
对 1 项 频繁 集 ， 而 这 些 频 繁 集 是 发 现 关联 规则 的 基础 。 

(2 ) 剪 枝 ( 去掉 不 必要 的 中 间 结 果 )。 在 判断 一 个 项 目 是 否 为 频繁 集 时 ， 如 是 采用 对 数据 库 
进行 扫描 计算 的 方法 。 当 频繁 集 很 大 的 时 候 ， 计 算是 低 效 率 ， 而 剪 枝 就 是 通过 引入 一 些 经 验 性 或 
经 数学 证 明 的 判定 条 件 ， 来 免除 一 部 分 不 必要 的 计算 步骤， 提高 算法 效率 。 

Apriori 算法 的 主要 步骤 : 

(1 ) 制定 最 小 支持 度 及 最 小 可 信 度 。 

(2 ) 首先 扫描 数据 库 产生 候选 项 目 集 ， 若 候选 项 目 集 的 支持 度 大 于 或 等 于 最 小 支持 度 ， 则 
该 候选 项 集 为 频繁 项 目 集 。 

(3 ) 在 运算 过 程 中 ， 首 先 由 数据 库 读 入 所 有 的 事务 数据 ， 得 到 候选 1 - 项 集 集合 Ci 及 相应 
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的 支持 度数 据 ， 通 过 将 每 个 1 - 项 集 的 支持 度 与 最 小 支持 度 比较 ， 得 到 频繁 1 - 项 集合 L1， 然 后 
将 这 些 频繁 1 -项 集 两 两 连接 ， 产 生 2 一 项 集合 C2。 

(4 ) 然后 再 次 扫描 数据 库 得 到 候选 2- 项 集合 Cs 的 支持 度 ， 将 2 一 项 集 的 支持 度 与 最 小 支 
持 度 比 较 ， 确 定 频繁 2 - 项 集 。 类 似 地 ， 利 用 这 些 频繁 2 - 项 集 L, 产 生 候选 3 - 项 集 和 确定 频繁 
3 一 项 集 ， 以 此 类 推 。 

(5 ) 反复 扫描 数据 库 ， 与 最 小 支持 度 比较 ， 产 生 更 高 项 的 频繁 项 集合 ， 再 结合 产生 下 一 级 
候选 集 ， 直 到 不 再 结合 产生 新 的 候选 项 集 为 止 。 

Apriori 算法 的 缺陷 主要 是 用 时 较 长 ， 特 别 是 数据 库 数据 较 多 时 。 针 对 这 个 不 足 ， 目 前 有 不 
少 的 改进 方法 。 如 哈 希 方法 、 减 少 事务 数据 的 方法 等 。 

哈 希 方法 可 用 于 减少 生成 候选 一 项 集 。 例 如 在 生成 候选 2 一 项 集 时 ， 不 采用 对 频繁 1- 项 
集 进行 两 两 连接 ， 而 直接 对 数据 库 进行 扫描 。 每 当 扫描 一 条 事务 数据 时 ， 将 事务 数据 中 出 现 的 可 
能 候选 2 -项 集 通 过 哈 希 函数 放 入 到 哈 希 桶 中 并 修改 相应 的 桶 的 读数 器 。 在 读 取 完 全 部 的 事务 数 
据 后 , 可 根据 最 小 支持 度 检 查 每 个 哈 希 桶 的 读数 器 , 于 是 可 以 直接 排除 一 部 分 未 能 达到 最 小 支持 
度 的 候选 频繁 集 ， 因 为 候选 频繁 的 生成 是 基于 事务 数据 ， 因 此 利用 该 技术 可 避免 生成 支持 度 为 0 
的 候选 集 。 然 而 ， 算 法 需要 耗 时 一 定 的 内 存 空 间 记录 每 个 哈 希 桶 中 的 全 部 候选 2 一 项 集 内 容 , 在 
数据 库 非 常 庞 大 时 会 面临 资源 不 足 的 风险 ， 此 外 当 一 个 哈 希 桶 存放 的 候选 2- 项 集 有 多 种 时 ， 对 
频繁 2 一 项 集 的 判断 是 相对 复杂 的 ， 这 也 是 哈 希 方法 的 不 足 之 处 。 
而 减少 事务 数据 的 方法 是 假设 一 个 事务 数据 不 能 支持 任 一 个 上 一 项 频繁 集 ， 那么 它 也 必 不 能 
支持 任 一 个 + 1 项 频繁 集 。 该 方法 在 为 确定 一 项 频繁 集 进行 数据 库 扫描 的 同时 , 标识 每 一 条 数 
据 是 否 能 支持 最 小 一 个 一 项 频繁 集 ， 在 数据 库 扫描 结束 后 ， 将 不 能 支持 最 小 一 个 一 项 频繁 集 
的 事务 数据 在 数据 库 中 进行 删除 ， 从 而 减少 了 算法 下 一 次 扫描 数据 库 所 需 的 时 间 。 


8.3 ”基于 分 类 搜索 的 关联 规则 算法 


8.3.1 ”基于 分 类 搜索 的 关联 规则 算法 特点 
基于 分 类 搜索 的 关联 规则 算法 具有 以 下 的 特点 。 
1. 分 类 特点 


对 于 任何 项 目 集 X, 若 开 的 项 目 数 length ( 工 ) 为 上， 则 三 属于 第 大 类 项 目 集 集合 ， 简 记 为 
KI (大 )。 因 此 对 于 事务 数据 库 九 ， 可 以 按照 事务 了 的 项 目 数 归 类 到 Trade (大 ) 中 ,并 计算 出 事务 
了 出 现 的 次 数 count (大 )， 其 中 Tade(t) = 这 | 7ergm(T) = 大 Tc 数据 库 D} 。 






































2. 搜索 特点 


由 于 任何 频繁 集 都 是 数据 库 DD 中 某 个 事务 集 工 的 子 集 五 ， 即 对 于 任 一 频繁 集 已 至 少 存 
在 一 个 7 使 得 Fc 了 7 ， 即 sup(7)= count(7)， 其 中 了 为 包含 F 的 事务 集 ， 特 别 地 ， 若 事务 了 


为 频繁 集 ， 则 其 子 集 也 是 频繁 集 ， 所 以 对 于 项 目 集 X， 若 存在 事务 7， 使 二 CT ， 当 了 为 频繁 
集 ， XX 也 是 频繁 集 。 称 此 为 频繁 集 的 充分 条 件 。 
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3. 存储 特点 


基于 分 类 的 搜索 算法 将 搜索 的 结果 存放 在 频繁 集合 或 是 候选 集合 中 , 并 通过 不 断 扩充 频繁 集 
集合 和 更 新 候选 集 集合 ， 最 终 得 出 所 有 频繁 集 。 由 频繁 集 的 封闭 性 ， 当 频繁 集中 的 项 为 1- 项 子 
集 时 其 也 为 1 -项 频繁 集 ， 称 此 为 频繁 集 的 必要 条 件 。 

设 为 所 有 1 一 项 频繁 集 | | 的 并 集 ，R= {7,7,,…,Lm} ， 称 R 为 基础 解 ， 由 必要 条 件 
可 知 ， 所 有 频繁 集 都 是 R 的 子 集 ， 定 义 频繁 集 集合 

KF={X|sup(X)= Dcount(T) ， 其 中 于 CT,support(X)<minsup,XcCR} 


i=nl 





定义 候选 集 集合 
KH={X |sup(X)= > count(7,), 其 中 对 CT,support(X) > minsup, 人 CR} 


i=nl 


基于 分 类 的 搜索 需要 将 KF 按 项 目 数 归 类 为 第 类 频繁 集 集合 和 第 类 候选 集 集合 ,分 别 记 
为 KF(K)={X |length(X)=k, 革 eKF}，KH(k)={X|length(X)=k 革 eKH} 称 基于 分 类 搜索 的 


关联 规则 算法 为 KFH 算法 。 
8.3.2 ”算法 流程 与 实现 


基于 分 类 搜索 的 关联 规则 算法 过 程 如 下 。 

(1 ) 对 指定 数据 库 , 输入 最 小 支持 度 , 计算 1 -项 频繁 集 并 得 出 基础 解 R 和 KF(1)、 KH(1)。 

(2 ) 从 最 多 项 数 maxk 开始 搜索 。 

(3 ) 在 Trade (大 )， 对 于 事务 T, 若 T 属 于 KF 中 , 则 不 分 解 ; 否则 , 计算 support (了 ) 为 count 
(上 ) 与 中 了 的 支持 度 之 和 。 若 support (了 ) >minsup ， 则 将 了 的 子 集 分 别 放 进 KF (i), 二 2,3,…,k， 
否则 , 将 T 放 进 KH (k) 中 , 若 有 子 集 属 于 KF， 则 放 进 KF 中 ， 否 则 放 进 KH 中 ， 更 新 KH 中 
的 支持 度 ，KH 中 支持 度 不 小 于 minsup 的 候选 集 放 进 KF 中 。 循环 下 去 ， 直 到 对 整个 数据 库 搜索 


完毕 。 


(4) 对 于 得 到 的 频繁 集 ， 访 问 数据 库 ， 求 得 其 支持 度 。 
8.3.3 ”数据 更 新 实现 
传统 算法 没有 很 好 地 解决 minsup 更 新 与 数据 新 增 的 问题 。 对 于 新 的 minsup 或 新 的 数据 ,都 
要 重新 求解 频繁 集 ， 导 致 计算 量 增 大 。 下 面 的 算法 可 以 很 好 地 解决 这 个 问题 。 
设 集合 FH(R) =KFUKH ={X} 存在 7 ， 工 CT.TCR 存 在 , FH (R) 为 基础 解 尺 在 数据 库 
中 存在 的 所 有 子 集 的 集合 , 令 
频繁 集 KF={X |support(X) 宇 minsup, X e FH} 
候选 集 KF= {XX |support(X)<minsup, XeFH} 
对 于 最 小 支持 度 的 改变 或 新 增 数据 。KFH 算法 的 更 新 过 程 为 
(1 ) 当 minsup 改变 时 ， 设 基础 解 变 为 Ri, 令 
PH(R xR,)={X|3T, FCT, XNR, #0,X Cc (RUR,) 
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式 中 : R, 表示 原来 的 基础 解 ; PH (RixR> ) 表示 基础 解 为 RiUR,, BI PH (RixR,) 必 含 有 已 的 
项 ， 且 在 数据 库 中 存在 的 所 有 子 集 的 集合 。 若 
FH(R)={X|IXeFH(X, XCR),RER 
FH(R)={X|Xe(FH(R)+PH(RxR), XY CR} 
FH(R)=1R=RUR,RNR=Y 
FH(R)={X|X eFH(R)) +PH(PH(R, xR))} 
R=RUR,RCR=O 
则 当 新 的 基础 解 Ri 包含 原 基 础 解 有 时 ，FH ( Ri ) 也 包含 FH (R)， 所 以 只 要 基础 解 的 项 不 
增加 ， 则 无 须 访问 数据 库 就 可 直接 得 出 新 的 KF 和 KH; 若 出 现 新 的 项 ， 则 只 需要 寻找 PH 就 可 
以 得 出 新 的 KF 和 KH。 
(2 ) 当 数 据 新 增 时 ， 若 新 增 的 项 目 集 集合 为 D'= {x,x;,…,x,} ， 新 的 基础 解 为 R， 则 新 的 
FHp,p. =FHp(R)+FH, (及 ) ， 由 频繁 集 KF 和 候选 集 KF 的 计算 公式 可 以 求 出 新 的 KF 和 KH， 
所 以 新 增 数据 的 频繁 集 更 新 与 改变 minsup 相 比 只 是 增加 求解 FH,(R,) 的 过 程 。 


8.4 ”时 序 关 联 规则 算法 


序列 模式 挖掘 是 指 挖掘 相 对 时 间或 其 他 模式 出 现 频 率 高 的 模式 。 例如 顾客 在 出 租 书 店 租 的 目 
录 和 顺序 上 表现 出 来 的 规律 即 为 一 种 时 序 关联 规则 。 对 于 时 序 关 联 规则 的 挖掘 中 同样 可 以 采用 
Apriori 特性 。 

给 定 一 个 顾客 事务 ( 交易 ) 的 数据 库 D, 每 一 个 事务 都 是 由 下 列 字段 组 成 : 客户 标识 (ID )、 
事务 时 间 (time ) 及 在 事务 中 所 购买 的 商品 项 目 (items )。 在 同一 时 间 不 存在 一 个 顾客 多 于 两 个 
以 上 的 事务 发 生 ， 在 事务 中 不 考虑 所 购买 项 目的 数量 ， 即 只 关心 一 个 项 目 是 否 被 购买 。 

一 个 项 目 集 是 一 个 非 空 的 项 目的 集合 ， 一 个 序列 是 由 若干 个 项 目 集 组 成 的 有 序 的 队列 。 将 
项 目 集 映射 到 一 个 连续 的 整数 集 ， 定 义 项 目 集 s; 为 (iz…in )， 其 中 己 是 一 个 项 目 ， 则 一 个 序列 
s=<sl92 sn> 是 由 组 成 的 有 序 的 集合 。 

如 果 存 在 整数 1 入 二 < 产 < … < 各， 且 a cb,as 5b,…;a, Sb ， 则 称 一 个 序列 <aias…an> 
属于 <b15,… bm>， 用 符号 和 表示 “被 包含 于 ”关系 。 

在 一 个 序列 集合 中 ， 若 一 个 序列 s 不 被 任何 其 他 序列 所 包含 ， 则 称 序列 s 是 极 大 的 。 

一 个 顾客 的 所 有 事务 放 在 一 起 可 看 作 是 一 个 序列 ， 其 中 每 一 个 事务 对 应 着 一 个 项 目 集 ， 而 
且 事 务 的 队列 按 事务 发 生 的 时 间 升 序 排列 ， 称 这 种 队列 为 顾客 队列 。 

序列 的 长 度 是 序列 中 的 项 目 集 的 个 数 。 一 个 长 度 为 的 序列 称 为 -项 序列 , 如 果 一 个 序列 
x 的 全 部 项 目 集 是 两 个 序列 y、: 的 项 目 集 的 并 集 ， 称 序列 x 是 由 序列 ? 与 = 拼接 成 的 序列 ， 记 作 
X=yUz。 

如 果 一 个 序列 s 被 包含 于 一 个 顾客 的 顾客 序列 中 ， 则 该 顾客 支持 序列 s。 一 个 序列 
<aiaap- -aa> 的 支持 度 是 支持 该 序列 的 顾客 数 与 总 顾客 数 之 比 ， 即 














SUP(< anap ao >)= Panap an) ~ 
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其 中 : Gi; 是 按 模 式 <anap---am> 购 买 的 第 i 个 顾客 ， 即 Ci; 先 购 买 oa， 再 购买 ep， 以 此 类 推 ， 最 后 
购买 om。 
一 个 序列 <anap…-aa> 的 可 信 度 是 指 ma、az、-… 、ai 模 式 的 规则 
aa 一 ap 一 一 am 
出 现 可 能 性 ( 频率 )， 可 以 定义 为 
= 
=P(an)xP(a, /an)x:…xP(a;, 1an aaaa) 
~ 支持 a 的 顾客 和 支持 qa 的 顾客 ee 支持 aa,,…a; 的 顾客 
总 顾客 数 支持 an 的 顾客 支持 aaap …a 的 顾客 
支持 waaa …an 的 顾客 
总 顾客 数 
一 个 满足 最 小 支持 度 的 项 目 集 称 为 最 大 项 目 集 ， 一 个 满足 最 小 支持 度 的 序列 称 为 大 序列 。 
给 定 一 个 顾客 事务 的 数据 库 D, 序列 模式 的 数据 挖掘 的 问题 就 是 在 事务 数据 库 中 发 现 由 满足 
由 用 户 给 定 的 最 小 支持 度 的 极 大 的 序列 ， 每 一 个 这 种 极 大 的 序列 代表 一 个 序列 模式 。 
时 序 关 联 分 析 有 Apriori - Gen 算法 ， 它 可 以 分 为 以 下 几 个 阶段 : 
(1) 排序 。 即 把 以 时 间作 为 标识 的 事务 数据 库 D 转换 为 以 顾客 号 作为 标识 的 序列 数据 库 ， 
每 一 顾客 唯一 对 应 一 个 项 目 集 表示 的 序列 模式 。 
(2 ) 对 序列 数据 库 应 用 Apriori 方法 求 k 项 大 项 目 集 ( 频繁 集 )。 
(3 ) 由 大 项 大 项 目 集 形成 候选 序列 。 
(4 ) 由 候选 序列 应 用 Apriori 方法 求 大 序列 。 
(5 ) 由 大 序列 求 最 大 序列 。 


8.5 ”多 值 属 性 关联 规则 算法 


由 于 事务 数据 中 的 项 目 信息 是 布尔 型 的 ,在 此 基础 上 发 展 起 来 的 传统 关联 规则 是 针对 布尔 型 
数据 设计 的 ， 因 此 对 于 多 值 关联 规则 问题 需要 用 多 值 属 性 关联 规则 算法 解决 。 

多 值 属性 可 分 为 数值 属性 和 类 别 属性 。 前 者 如 年 龄 、 价 格 等 , 可 以 是 连续 的 , 也 可 以 是 离散 
的 ; 后 者 如 品牌 、 制 造 商 等 ， 只 能 取 有 限 个 属性 值 。 

多 值 属性 的 关联 规则 主要 分 为 以 下 三 类 。 
8.5.1 静态 离散 属性 关联 规则 

该 方法 对 数值 属性 的 处 理 方法 是 对 属性 的 意义 进行 研究 ， 结 合 属性 取 值 的 现实 意义 ， 预 先 将 
属性 的 值 域 划 分 成 若干 个 区 间 , 然后 按照 这 个 划分 区 间 对 属性 值 进行 离散 化 , 使 其 从 数值 型 属性 转 
变 成 类 别 属性 。 例 如 可 以 将 年 龄 属性 按 不 同 的 年 龄 段 分 成 童年 、 青 年 、 中 年 和 老年 四 种 年 龄 阶段 。 

在 进行 属性 的 转换 过 程 中 , 要 结合 数据 集 的 属性 值 的 分 布 特点 , 否则 会 导致 无 法 挖掘 出 有 意 
义 的 关联 规则 。 转 换 过 程 中 需要 注意 如 下 问题 。 

(1 ) 标 称 属性 不 能 取 值 过 多 ， 否 则 因 没 有 足够 支持 度 支持 ， 会 无 法 发 现任 何 关 联 规则 。 

(2 ) 连续 属性 离散 区 间 划 分 要 适当 。 区 间 划 分 太 罕 会 导致 不 满足 支持 度 ， 而 无 法 发 现 关联 
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规则 。 
8.5.2 动态 离散 关联 规则 


该 方法 的 区 间 划 分 并 不 通过 事先 的 定义 ,而 是 取决 于 数据 的 分 布 情况 。 划分 的 区 间 数 也 是 不 
确定 的 , 并 且 在 挖掘 的 过 程 中 可 能 会 根据 需要 而 将 一 些 相 邻 的 区 间 进 行 合并 以 获得 更 强 的 关联 规 
则 。 

某 些 量化 属性 的 值 域 范围 是 相对 周 定 的 ， 例 如 如 果 要 将 年 龄 离散 化 ， 只 需 将 值 域 放大 到 
[0.150]， 则 区 间 划 分 可 以 在 这 个 确定 的 区 域 中 进行 。 但 是 某 些 量化 属性 如 收入 ， 其 值 域 可 以 非常 
宽广 ， 而 且 在 不 同 的 数据 库 ， 其 数据 的 分 布 可 以 是 不 均匀 的 。 对 于 这 种 量化 属性 可 以 根据 其 分 布 
特点 进行 动态 划分 , 在 值 域 宽泛 的 时 候 区 间 宽 度 会 随 着 值 域 扩大 ,而 在 值 域 比较 狭小 时 区 间 的 划 
分 会 更 加 细致 ， 而 不 会 丢失 属性 信息 。 这 个 划分 过 程 称 为 分 箱 。 常 用 的 分 箱 策略 有 以 下 三 种 。 

(1 ) 等 宽 分 箱 ”每 个 箱 的 区 间 长 度 相同 。 

(2 ) 等 深 分 箱 “每 个 箱 赋 予 大 致 相同 个 数 的 元 组 。 

(3 ) 基于 同 质 的 分 箱 。 箱 的 确定 取决 于 使 得 每 个 箱 的 元 组 分 布 趋 于 一 致 。 


8.5.3 ”基于 距离 的 关联 规则 


动态 离散 方法 能 够 根据 属性 数据 的 分 布 进行 离散 化 , 但 是 这 种 划分 可 能 不 完全 符合 区 间 数 据 
的 语意 。 一 种 可 行 的 划分 方法 是 聚 类 方法 ,通过 将 该 属性 的 全 部 数据 进行 聚 类 ， 从 而 得 到 若干 个 
类 别 ， 再 根据 类 中 数据 的 极 大 、 极 小 值 来 确定 区 间 边 界 。 

在 将 属性 值 采 用 不 同方 法 离散 化 后 ， 这 些 方法 都 可 以 共享 一 个 相同 的 求解 框架 ， 即 可 将 多 值 
关联 规则 问题 转化 为 布尔 型 关联 规则 问题 ,然后 再 利用 已 有 的 挖掘 布尔 型 关联 规则 的 方法 得 到 有 价 
值 的 规则 。 若 属性 为 类 别 属性 ， 则 先 将 属性 值 映 射 为 连续 的 整数 ， 并 使 意义 相近 的 取 值 相 邻 编号 。 

算法 求解 过 程 如 下 。 

(1 ) 将 划分 后 的 属性 区 段 [1k, x1 或 属性 值 映射 成 序 对 <4, 成 , 进而 映射 为 布尔 属性 4 (mm )， 
所 有 这 样 的 属性 构成 项 集 。 

(2 ) 从 项 集中 寻找 所 有 有 价值 的 项 ， 构 成 频繁 集 。 有 价值 的 项 是 指 支 持 它 的 交易 的 数量 超 
过 给 定 的 最 小 支持 度 。 

(3 ) 在 频繁 集中 迭代 地 搜索 出 组 合 后 的 支持 度 超过 给 定 阔 值 的 两 个 项 ， 将 其 组 合并 加 入 频 
繁 集 中 ， 如 果 是 相同 属性 的 相 邻 区 段 ， 则 进一步 合并 。 

(4 ) 应 用 频繁 集 产 生 关联 规则 , 如果 4BCD 和 4B 都 是 频繁 集 ， 则 判定 规则 48 => CD 是否 

suppCBCD) 日 


成 立 , 是 通过 计算 可 信和 度 Conf = 一 C4B) 是 超过 最 小 可 信和 度 来 决定 的 。 如 果 成 立 , 则 规则 





成 立 。 
(5 ) 确定 有 价值 的 关联 规则 作为 输出 。 


8.6” 增 量 关 联 规则 算法 
在 有 关 关 联 规则 的 应 用 中 , 为 了 找到 真正 有 价值 的 规则 , 需要 不 断 调整 两 个 基本 的 变量 即 最 
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小 支持 度 和 最 小 可 信 度 。 

给 定 交易 数据 库 , 一 个 项 目 集 的 支持 度 可 以 认为 是 所 有 包含 该 项 目 集 的 交易 的 数目 , 设 最 小 
支持 度 为 s，Li 为 所 有 频繁 一 项 集 的 集合 ， 本 1,2,…,m(1)。 这 里 m(1) 为 所 有 频繁 项 目 集 长 度 中 
的 最 大 者 。 同 样 对 于 新 的 支持 度 s', 设 L( 及 为 所 有 频繁 一 项 目 集 的 集合 ， 本 1,2,…,m(2)。 对 于 
每 一 个 项 目 集 都 有 一 个 域 count 用 来 保护 它 的 支持 度 计数 。 

当 最 小 支持 度 发 生 改变 时 ， 可 以 分 为 如 下 两 种 情况 。 

(1) s>s， 原 有 的 一 些 频繁 项 目 集 可 能 最 小 支持 度 。 

(2 ) s'<s, 原 有 的 一 些 非 频繁 项 目 集 可 以 获得 最 小 支持 度 。 

假设 原 支 持 度 5S1， 新 支持 度 5,， 首 先 通 过 扫描 得 到 % 下 的 新 频繁 集 IL, (1), 且 L(1) 与 L 
(1) 不 相交 , Zi (1) 为 L, (1) 与 7 (1) 的 并 集 ， 之 后 就 得 到 三 类 频繁 一 项 目 集 Ci (大 )，C? 
(天 )，CGs (大 )， 对 这 C1 (大 ) 和 Cs,() 进行 Apriori 算法 中 apriori 一 Gen 函数 生成 ,对 Cs (上 ) 
通过 剪 枝 可 以 求 得 。 


8.7 ”基于 关联 规则 的 分 类 算法 


分 类 是 数据 挖掘 领域 中 最 重要 的 应 用 之 一 。 对 于 不 确定 性 问题 的 关联 分 类 规则 需要 关联 规则 
分 类 算法 。 

基于 关联 规则 的 分 类 问题 定义 如 下 : 

假设 数据 集 D 有 m 个 属性 分 别 为 41,42,-… ,4m， 数 据 集 的 规模 为 | D | ，C 表示 数据 的 类 别 
标志 。 相 应 地 ， 属 性 4; 和 类 别 C 的 取 值 可 表示 为 w 和 e， 则 一 条 数据 可 表示 为 (akaz,… ,amc ) 
项 目 集 Itemset 定义 为 若干 个 属性 的 取 值 的 集合 <an,az,…, or>，4 和 mm。 一 条 分 类 规则 ~ 可 以 表示 
为 一 个 项 目 集 对 应 于 一 个 类 别 值 ， 即 <oasapz,…, om。Occr (+ ) 表示 数据 集 DD 中 与 构成 规则 x 的 
项 目 集 <oauapz,…, ai> 相 匹配 的 数据 量 。Supp ( > ) 表示 规则 x 的 支持 度 ， 即 数据 集 D 中 与 构成 规 
则 x 的 项 目 集 相 匹 配 且 类 别 标志 与 规则 x 的 类 别 一 致 的 数据 量 。 Conf(x) = supp(r)/Ocer(7) 表 示 规 则 
r 的 置信 和 度 。minsup 和 minconf 分 别 表 示 关 联 规 则 分 类 中 的 最 小 支持 和 最 小 置信 度 。 规 则 集 尺 表 
示 分 类 规则 x 的 集合 ， 其 中 vr eR 满足 supp()>minssup 上 且 conftD>minconf。 对 于 规则 
Fr<anao :aocCR， 可 以 看 作 ama:as 之 ee， 假定 某 一 数据 记录 的 属性 取 值 同时 满足 
aa2 ,aa 时 ， 则 它 属 于 类 的 置信 度 为 confD。 关 联 规则 分 类 算法 是 在 基于 样本 数据 集 刀 ， 
寻找 分 类 规则 集 R， 并 按照 某 种 策略 将 其 中 的 分 类 规则 有 序 地 组 织 起 来 ， 从 而 建立 分 类 器 模型 。 
在 给 定 一 组 未 知 类 别 的 数据 时 , 通过 在 分 类 器 中 的 规则 集中 寻找 置信 度 高 并 且 与 数据 最 优 匹配 的 
规则 ， 将 匹配 规则 指向 的 类 别 作为 未 知 数据 的 类 别 。 

根据 上 述 的 定义 可 以 发 现 ， 关 联 分 类 算法 实际 上 是 对 多 值 属性 关联 规则 问题 的 进一步 挖掘。 
在 多 值 属性 关联 规则 问题 上 需要 关注 的 是 各 自 属 性 值 之 间 的 关系 , 各 个 属性 的 地 位 是 否 平等 , 而 
对 于 关联 分 类 问题 , 把 类 别 标志 也 作为 一 个 属性 来 看 待 , 从 而 通过 关联 规则 方法 挖掘 属性 之 间 的 
潜在 关系 。 关 联 分 类 算法 在 寻找 到 关联 规则 的 基础 上 ， 挑 选 出 那些 与 类 别 属 性 密切 相关 的 规则 ， 
并 按 某 种 逻辑 顺序 把 这 些 规则 整合 成 为 一 个 有 机 整体 , 即 分 类 器 。 通 过 将 未 知 样本 的 属性 和 分 类 
规则 进行 匹配 ， 将 最 匹配 的 规则 的 类 别 指派 给 未 知 样本 。 从 而 实现 对 样本 进行 分 类 。 

关联 规则 分 类 算法 通常 分 为 三 个 相继 的 环节 , 即 规则 生成 、 规 则 梳理 和 分 类 。 规 则 生成 主要 
沿用 关联 规则 挖掘 技术 挖掘 蕴含 分 类 规则 的 频繁 集 , 规则 梳理 则 在 过 滤 部 分 无 用 规则 的 基础 上 采 
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昌 某 种 标准 将 分 类 规则 组 织 起 来 形成 分 类 器 模型 , 分 类 则 利用 建立 的 分 类 器 对 未 知 类 别 数据 进行 
判别 。 

现 有 的 关联 分 类 算法 包括 CBA、CMAR 、MCAR 、GARC 等 , 其 中 CBA 算法 是 最 早 用 于 关联 
分 类 的 一 个 算法 ， 它 在 规则 生成 环节 基本 上 平移 了 基于 Apriori 的 多 属性 关联 规则 算法 来 寻找 分 类 
规则 ， 规 则 梳理 环节 在 获得 分 类 规则 集 的 基础 上 ， 按 照 规则 的 置信 度 、 支 持 度 、 规 则 长 度 等 标准 ， 
将 所 有 的 规则 按照 线性 的 顺序 组 织 起 来 , 形成 一 个 分 类 器 ,而 在 分 类 环节 中 ,按照 分 类 器 中 的 规则 
的 先后 次 序 将 规则 的 条 件 与 未 知 类 别 进行 匹配 ， 从 而 找到 最 优 的 规则 ， 完 成 对 样本 的 分 类 。 


8.8 ”模糊 关联 分 类 算法 


8.8.1 ”属性 的 模糊 划分 


(1 ) 数值 型 属性 的 模糊 划分 
三 角 函 数 常 被 用 于 定义 数值 型 属性 的 模糊 划分 。 当 属性 a 取 值 范围 划分 为 天 类 时 ,属性 a 
隶属 于 天 类 中 的 第 五 类 的 隶属 度 函 数 为 
Mga (=max{l-|x—as |/b* .0 
式 中 : af 是 类 中 心 ，af =m (ma 一 m3 一/(K 一 1 ，b* =(ms 一 m)/(K 一 1])，ma 是 属性 a 
取 值 范围 里 的 最 大 值 ， 而 mi; 是 属性 取 值 范围 的 最 小 值 ，& 是 对 应 类 边界 。 
对 于 划分 中 心 的 选择 ， 可 以 先 结合 建 模样 本 对 每 个 属性 按 模糊 区 间 数 进行 聚 类 ， 找 到 相应 的 
类 中 心 并 作为 属性 模糊 区 间 的 中 心 ， 相 应 地 ， 可 取 两 个 类 别 的 最 靠近 中 心 的 点 的 距离 中 点 为 边界 。 
(2 ) 离散 属性 的 模糊 划分 
如 果 一 个 离散 型 属性 的 值 共 有 种 , 那么 这 种 属性 可 以 被 界定 为 n 种 模糊 划分 , 将 每 一 个 属 
性 可 以 对 应 于 一 个 整数 ， 则 对 于 属性 值 45 ,1 夺 坟 三 可 以 被 定义 为 第 声 个 划分 (加 -es，inte) 
而 隶属 度 函 数 为 yx (x) =Li, -Ex +20 


8.8.2 ”模糊 关联 的 定义 

根据 属性 值 的 模糊 划分 ， 可 以 给 出 模糊 意义 下 的 支持 度 和 置信 和 度 的 定义 。 

给 定数 据 集 D，| D | =n， 对 属性 a， 隶属 度 函 数 为 1x, (X,)=max{1-|x, -af |/b*,0} ， 
其 中 a =m, (ms 一 m)(i 一 DAK ，b* =(m。 一 m,)/(K 一 ]) ,axp 是 样本 玉 , cD 在 属性 a 上 的 
值 ， 则 属性 值 4 的 模糊 支持 度 为 











Supppesy = BHR CE /| 
模糊 置信 度 为 


万 
总 LR (Fa.p) HE (Ko,.p) 
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confpes 一 也 D 
ba HR (Ca 2 Hs (ap ) 
Xp » 
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模糊 关联 分 类 是 在 数据 集 D 中 依据 模糊 支持 度 和 模糊 置信 度 的 计算 公式 寻找 模糊 支持 度 和 
置信 度 大 于 相应 阔 值 minsupp 和 minconf 的 模糊 分 类 规则 ， 并 构造 模糊 关联 分 类 器 ， 对 未 知 样本 
以 置信 度 进行 模糊 分 类 。 


8.9 ”关联 规则 的 评价 


在 实际 应 用 中 , 由 于 数据 库 的 数据 量 和 维 数 都 很 大 , 很 容易 产生 数 以 百 计 的 关联 规则 ,如何 
从 中 筛选 出 最 有 价值 的 规则 显得 非常 重要 。 为 此 需要 建立 一 组 广 为 接 受 的 评价 关联 规则 质量 的 标 
准 。 常 用 的 评价 标准 主要 有 两 种 : 一 是 基于 统计 学 的 客观 度量 ( 如 基于 支持 度 一 置信 度 框 架 ); 
另 一 种 是 通过 主观 论据 建立 的 主观 度量 。 


8.9.1 支持 度 一 置信 和 度 框架 


现 有 关联 规则 算法 大 部 分 都 使 用 支持 度 一 置信 度 框架 来 除去 没有 意义 的 规则 ,支持 度 的 度量 
反映 了 关联 规则 是 否 具有 普遍 性 , 支持 度 高 说 明 这 条 规则 可 能 适用 于 数据 中 的 大 部 分 事务 。 置 信 
度 的 度量 则 反映 了 关联 规则 的 可 靠 性 ,置信 度 高 说 明 如 果 满 足 了 关联 规则 的 前 件 , 同时 满足 后 件 
的 可 能 性 也 非常 大 。 尽管 最 小 支持 度 和 置信 度 阔 值 有 助 于 排除 大 量 无 意义 规则 , 但 是 仍然 会 产生 
一 些 没 有 价值 的 规则 。 支持 度 的 缺点 在 于 许多 潜在 的 有 意义 的 规则 由 于 包含 支持 度 小 的 项 而 被 删 
除 ; 而 置信 度 忽 略 了 规则 后 件 中 项 集 的 支持 度 ， 可 能 出 现 误导 的 强 关联 规则 。 因 此 ， 由 支持 度 一 
置信 度 度量 得 出 的 强 关联 规则 不 一 定 是 有 意义 的 规则 。 

例如 表 8.1 所 示 为 早餐 麦片 的 销售 商 调查 在 校 5000 名 学 生 早晨 进行 的 活动 ， 假 定 支持 度 为 
40%， 置 信 度 为 60%。 则 关联 规则 | 打 篮 球 | 一 | 吃 麦 片 | 的 支持 度 为 2000/5000=40%， 置 信和 度 
为 2000/3000=67%。 这 条 规则 是 强 关联 规则 ,表明 打 篮 球 的 学 生 通 常 也 会 吃 麦 片 。 但 是 所 有 学 生 
中 吃 麦 片 比例 为 75%， 要 大 于 67%。 这 说 明 一 个 学 生 如 果 打 篮球 ， 那 么 他 吃 麦 片 的 可 能 性 就 从 
75% 下 降 到 了 67%， 而且 | 不 打 篮球 上 一 | 吃 麦 片 | 的 可 能 性 为 1750/2000=87.5%。 因 此 ， 尽 管 
规则 | 打 篮球 1 一 | 吃 麦片 | 有 着 较 高 的 置信 和 度 ， 却 是 一 个 误导 ， 因 为 打 篮 球 反而 会 抑制 早餐 吃 
麦片 。 

















表 8.1 早餐 与 运动 的 调查 结果 


吃 麦 片 3750 
不 吃 麦 片 1250 
5000 








为 了 降低 支持 度 和 置信 度 度量 的 局 限 性 , 可 以 在 它们 的 基础 上 增加 相关 性 的 度量 。 相 关 性 度 
量 可 采用 提升 度 ( 亦 称 兴 趣 度 )、 相 关系 数 、 余 弦 度 量 等 方法 。 

提升 度 (1if ) 是 一 种 简单 的 相关 度量 。 对 于 项 集 A 和 项 集 B， 如 果 P(AUB)=P(A)P(B), 则 
A 和 B 是 相互 独立 的 ,否则 存在 某 种 依赖 关系 。 关 联 规则 的 前 件 项 集 A 和 后 件 项 集 B 之 间 的 依 
赖 关 系 通过 提升 度 计算 : 
P(AUB) _ confidence(A 一 B) 


MOD) -BAPB) SupportG) 
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提升 度 可 以 评估 项 集 A 的 出 现 是 否 能 够 促进 项 集 B 的 出 现 。 如 果 其 值 大 于 1, 表示 一 者 之 间 
存在 正 相关 ; 小 于 1， 则 二 者 存在 负 相关 ; 等 于 1， 二 者 之 间 没 有 相关 性 。 
根据 表 8.1 可 以 计算 出 关联 规则 | 打 甸 球 | | 吃 麦 片 | 的 提升 度 为 
| Pd 打 篮球 ) 《{ 吃 麦片 ) 04 
i(( 打 复 球 ) >《 吃 麦片 六 了 ( 打 入 球 ) 《 吃 雪 片 放 ”06x0.75 
其 值 小 于 1， 说 明 前 后 件 存在 负 相关 关系 ， 即 推广 “ 打 签 球 "不 但 不 会 提升 “ 吃 麦 片 " 的 人 
数 ， 反 而 会 减少 。 
项 集 间 的 相关 性 也 可 以 用 相关 系数 来 度量 。 对 于 二 元 变量 ， 相 关系 数 乡 定义 为 


fufwo -foufho 
Vhsfufo fo 
式 中 : 每 个 方 都 表示 一 个 频 度 计数 , 记 表 示 A 和 B 同时 出 现在 一 个 事务 中 的 次 数 ，fo 表示 包含 
B 但 不 包含 A 的 事务 数 ， /表示 A 的 支持 度 计数 ， 表示 B 的 支持 度 计数 。 
同样 ， 可 计算 出 “ 打 篮 球 ” 与 “ 吃 麦片 ” 间 的 相关 系数 ， 其 值 小 于 0， 说 明 存 在 负 相关 。 
_ 2000x250-1000x1750 














二 0.89 





用 


= 一 一 一 一 一 一 一 一 0.23 
V3750x3000x1250x2000 
相关 性 度量 还 可 以 用 余弦 度量 ， 即 
P(AUB) support(AEB) 


ine(4 甩 ) = 一 一 一 一 一 一 一 = 
oind( 4 8) VP(A)xP(B) Vsupport(A)xsupport(B) 





8.9.2 ”基于 主观 因素 的 主观 度量 


主观 度量 的 评估 标准 主要 体现 在 用 户 和 领域 知识 融合 等 主观 因素 ， 是 一 项 较为 困难 的 任务 ， 
需要 来 自 领域 专家 的 大 量 知识 信息 。 

下 面 是 几 种 将 主观 因素 加 入 到 关联 规则 发 现 的 方法 。 

(1 ) 可 视 化: 这 种 方法 需要 友好 的 环境 界面 保持 用 户 参与 允许 领 域 专家 解释 和 检验 所 
发 现 的 规则 ， 并 能 与 数据 挖 气 系 统 交互 。 

(2 ) 基于 模板 的 方法 ;这 种 方法 允许 用 户 限制 挖掘 算法 的 模式 类 型 ， 只 把 满足 用 户 指定 模 
板 的 规则 提供 给 用 户 ， 而 不 是 提取 所 有 规则 。 

(3 ) 主观 兴趣 度 度量 主观 兴趣 度 可 以 基于 领域 信息 来 定义 ， 如 概念 分 层 或 商品 利润 等 ， 
然后 使 用 这 些 度量 来 过 滤 没 有 意义 的 规则 。 例 如 规则 {黄油 } 一 {面包 } 可 能 不 是 十 分 有 趣 的 ,尽管 
有 很 高 的 支持 度 和 置信 度 ， 但 是 它 表 示 的 关系 显而易见 。 另 一 方面 ， 规 则 {Diaper} 一 {Beer} 是 有 
趣 的 ， 因 为 这 种 关系 十 分 出 乎 意料 ， 并 且 可 能 为 零售 商 提 供 新 的 交叉 销售 机 会 。 


8.10 ”辛普森 悖 论 


在 实际 的 关联 分 析 中 , 有 时 在 对 数据 集 按照 某 个 变量 进行 分 组 后 , 则 之 前 对 整个 数据 集 分 析 
得 到 的 关联 规则 可 能 并 不 适用 于 分 组 数据 ， 这 种 现象 就 是 辛普森 悖 论 。 
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表 8.2 为 某 学 校 的 招生 数据 , 可 计算 出 规则 | 性 别 = 男 S| 录取 = 是 | 的 置信 度 是 209/304=68.8%， 
而 规则 | 性 别 = 女 1 一 | 录取 = 是 | 的 置信 和 度 是 143/253=56.5%， 说明 男 生 比 女生 更 有 可 能 被 录取 。 





表 8.2 招生 录取 表 














将 招生 数据 按 学 院 进行 分 组 后 ， 招 生 录 取 情 况 如 表 8.3 所 示 。 
表 8.3 ”分 组 后 招生 录取 表 


学 院 总 数 
ee 53 
法 学 院 
152 
Bs 251 
学 院 
101 





对 于 法 学 院 : 
confidence({ 性 别 = 男 } 一 {录取 = 是 })=8/53=15.1% 
confidence({ 性 别 = 女 } 一 {录取 = 是 })=51/152=33.6% 
于 商学 院 : 
confidence({ 性 别 = 男 } 一 {录取 = 是 })=201/251=80.1% 
confidence({ 性 别 = 女 } 一 {录取 = 是 })=92/101=91.1% 
计算 表明 ,对 于 两 个 学 院 , 女生 更 有 可 能 被 录取 。 这 与 先前 由 包含 两 个 学 院 的 数据 得 到 的 结 
论 刚 好 相反 。 即 使 采用 其 他 度量 ( 如 相关 性 、 概 率 或 兴趣 因子 ) 也 会 发 现 , 在 所 有 数据 情况 下 男 
性 和 录取 之 间 存 在 正 相关 , 但 在 组 分 数据 情况 下 却 存在 负 相 关 的 情况 。 得 到 的 这 两 种 截然 不 同 的 
结论 就 是 痒 普 森 悖 论 。 

辛普森 悖 论 的 存在 使 得 在 进行 相关 分 析 时 , 有 时 需要 对 数据 进行 适当 的 分 组 , 才能 避免 因 辛 
普 森 悖 论 产 生 虚 假 的 模式 。 例 如 大 型 超市 的 购物 篮 数 据 应 该 依据 商品 的 位 置 分 组 ， 而 不 同 病 人 的 
医疗 记录 应 当 按 照 不 同 的 因素 ( 如 年 龄 和 性 别 ) 分 组 。 


8.11 基于 MATLAB 的 关联 规则 分 析 


例 2.53 表 8.4 给 定 一 个 具有 9 条 数据 的 事务 库 。 假 设 最 小 支持 度 为 0.2, 最 小 置信 度 为 50%， 
求 大 项 目 。 


> 
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表 8.4 事务 数据 集 

标 识 项 目 清单 
TO01 I2.13 
T002 I1.13 
T003 I2,13 I1,12,13,15 
T004 I1.I2.I4 I1.I2.13 
T005 I1.13 

解 : 


序 中 为 了 减少 对 数据 库 的 扫描 次 数 ， 首 先 
示 这 个 项 出 现在 标识 中 的 标识 号 。 如 对 于 本 


根据 Apriori 算法 的 原理 ， 编 程 分 析 本 问题 。 在 
对 数据 库 扫描 ， 得 到 一 个 矩阵 ， 其 中 行 表示 项 , 列表 





例 其 矩阵 为 
a=[ 1 NaN NaN 4 1 NaN 到 8 9 
三 六 3 4 NaN 6 NaN 8 9 
NaN NaN 法 NaN 5 6 7 8 $ 
NaN 肥 NaN 4 NaN NaN NaN NaN NaN 
1 NaN NaN NaN NaN NaN NaN 8 NaN]; 


得 到 这 个 矩阵 后 ， 其 后 在 计算 支持 度 时 就 无 须 再 扫描 数据 库 ， 而 只 需 对 矩阵 进行 减法 操作 

即 可 。 

同时 ,为 了 使 程序 能 适合 不 同 的 情况 ,本 程序 可 以 用 三 种 形式 输入 , 即 : 一 是 用 数字 表示 事 

项 ; 二 是 用 字母 表示 事项 ; 三 是 数字 序号 不 是 从 1 开始 。 如 本 例 可 以 用 下 面 的 其 中 一 种 形式 输入 : 
x={[1 2 5];[2 4];{2 3];[1 2 4];[1 3];[2 3];[1 3];[1 2 3 5];[1 2 3]}; 

或 者 : 
z={[3 4 7];[4 6];[4 5];[3 4 6];[3 5];[4 5];[3 5];[3 4 5 7];[3 4 5]}; 

或 者 : 
ee 
EE I TT 下 太 放 疝 由 芳村 二 让 站 全 

对 于 本 例 ， 计 算 可 得 到 以 下 结果 : 

>> sup min=0.2;conf min=0.5; 

>>x={[1 2 5];[2 4]27[2 3];[1 2 4];[1 3];[2 3]:[1 3];[1 2 3 5]7[1 2 3]}; 

>> y=Apriori (x,sup min,conf min) 

y= '5%1 2 conf=1， gs 关联 规则 及 相应 的 置信 度 

"1 S52 conf=1" 
'2 5- conf=1" 
'1 2-53 conf=0.5" 


1 25 conf=0.5" 
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'1 3-2 conf=0.5" 


"2 3-1 conf=0.5" 


例 2.54 ” 当 数 据 库 较 大 时 ， 基 本 的 Apriori 算法 耗 时 较 大 ， 需 要 进行 改进 。 其 中 的 一 个 改进 
方法 是 将 一 个 大 的 事务 数据 库 划 分 为 若干 个 规模 较 小 的 事务 数据 库 , 并 在 各 个 小 事务 数据 库 中 挖 
掘 出 极 大 频繁 集 。 然 后 将 全 部 的 局 部 极 频繁 集 汇 总 起 来 形成 候选 全 局 极 大 频繁 集 , 最 后 再 一 次 扫 
描 大 数据 集 计 算 每 个 候选 全 局 极 大 频繁 集 的 支持 度 ， 最 后 可 得 到 全 局 极 大 频繁 集 。 

根据 例 2.52 中 的 数据 表 ， 构 造 一 个 事务 数据 库 ， 并 根据 这 个 算法 的 原理 挖掘 极 大 频繁 集 。 

解 : 
根据 算法 原理 ， 可 编制 相应 的 程序 。 在 程序 中 , 支持 度 的 计算 是 基于 一 个 二 值 和 矩阵 ， 其 结构 
与 例 2.52 中 的 数据 矩阵 类 似 ， 只 不 过 用 “1” 代 表 出 现 ,“0” 代 表 不 出 现 。 在 计算 支持 度 时 对 和 矩 
阵 相应 的 行进 行 逻辑 “或 ”运算 即 可 。 

在 划分 数据 库 时 ,各 个 小 数据 库 中 的 数目 可 以 不 相等 ， 另外 在 具体 应 用 时 ,要 根据 具体 情况 
( 整个 数据 库 大 小 、 内 存 等 ) 确定 小 数据 库 的 数目 ， 本 例 中 划分 为 3 个 。 


>>sup min=0.2;conf min=0.5;sample=cell (31,1); type=2; 














SSR=11"IL, "LT2n VIS Yt T2 TYT 2 LI tTLY, "LT2", TIT4E (LL ty 

[DE 

>>sample=repmat (x, [] ,3) ;sample{28}=x{8};sample{29}=x{9}; 

S35ampnetSo0l il 2 To sampiet a {ri Tol 

>>rule=apriori divi (sample,sup min,conf min,type); 

>> rule{1}='I2"' “ES = ME ， conf=" 2 
rule{2}="'I1" 本 '»" 和 ， conf=" JOSE 
rule{3}="'I5" "2 bn i by " conf=" DSS 
rule{4}="'I1" 3 "2 ht ， conf=" 1 放下 计 
Frule{5}="I2" PT 2 EF ' conf=" OST 
rule{6}="'I1" sh =" 于 ， conf=" ODT 
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9.1 近邻 法 


近邻 法 是 在 数据 挖掘 中 使 用 最 早 的 技术 之 一 。 其 基本 思想 是 为 了 预测 一 个 记录 中 的 预测 值 ， 
或 在 历史 数据 库 中 寻找 有 相似 预测 值 的 记录 ， 可 以 使 用 未 分 类 记录 中 最 接近 的 记录 值 作为 预测 
值 ， 也 即 相互 之 间接 近 的 对 象 会 有 相似 的 预测 值 。 

假设 有 M 个 ouo>,…,ox 类 别 ， 每 类 有 标明 类 别 的 样本 Ni 个 (二 1,2,…,M)， 可 以 规定 on 
类 的 判别 函数 为 














d(X)=min|| -Xl 


其 中 : 耻 的 角 标 i 表 示 wi 类 ,上 表示 w; 类 Ni 个 样本 中 的 第 个 。 分 类 器 规则 可 以 写 为 
dD) =mind(w),i=12.,M > Xeo, 


这 一 决策 过 程 称 为 最 近邻 法 ,也 即 对 未 知 样本 ,只 要 比较 与 N= SN, 个 已 知 类 别 的 样本 间 


的 欧 氏 距 离 ， 并 将 其 归 类 与 离 它 最 近 的 样本 类 别 。 

上 述 方法 只 根据 与 未 知 样本 最 近 的 一 个 样本 的 类 别 而 决定 未 知 样本 的 类 别 ， 通 常 称 为 INN 
方法 。 为 了 克服 单个 样本 类 别 的 偶然 性 以 增加 分 类 的 可 靠 性 ， 可 以 采用 -近邻 法 ( K-nearest 
neighbors，KNN )， 即 考察 与 未 知 样本 x 最 近邻 个 样本 ， 这 个 最 近邻 中 哪 一 类 的 样本 最 多 ， 
就 将 x 判 属 哪 一 类 。 为 了 避免 近邻 数 相 等 ,一般 丰采 用 奇数 。 另 外 最 近邻 样本 对 于 “选票 ”所 起 
的 作用 ， 可 以 用 相应 的 距离 将 之 赋 权 

大 


用 
Vs = > 或 Wy 
Rt 


i 


式 中 : 丸 为 对 于 两 类 问题 ， 当 其 邻 属于 第 一 a 为 “+1”, 属于 第 二 类 时 为 “1”,D 为 未 知 
样本 与 第 i 个 近邻 的 距离 ,为 最 近邻 数 。 当 “选票 ” dd 人 否则 未 
知 样本 归 入 类 2。 

为 了 测试 个 最 近邻 样本 的 风险 值 ， 可 用 下 式 计算 


RO =[1 + a62(D]R 


KNN 法 无 须要 求 对 不 同类 的 代表 点 线性 可 分 ， 只 要 用 每 个 未 知 点 的 近邻 类 来 判别 就 可 以 ; 
也 不 需要 作 训练 过 程 。 但 它 的 缺点 是 没有 对 训练 点 作 信息 压缩 , 因此 每 判别 一 个 新 的 未 知 点 都 需 
要 把 它 和 所 有 已 知 代表 点 的 距离 全 部 算 一 遍 , 因此 计算 工作 量 大 , 对 已 知 代表 点 太 多 的 情况 不 其 
合适 。 但 正 是 因为 没有 作 信息 压缩 ,而 用 全 体 已 知 点 的 原始 信息 做 判 据 , 故 有 时 可 得 到 极 好 的 预 
报 准确 率 ， 其 效果 一 般 优 于 或 等 于 其 他 模式 识别 方法 。 

KNN 法 中 对 所 有 的 类 选取 相同 的 玉 值 ， 且 其 选择 有 一 定 的 经 验 性 。 如 果 能 根据 每 类 中 样本 
的 数目 和 分 散 程度 选择 天 值 , 并 当 各 类 的 & 选 定 后 ,用 一 定 的 算法 对 类 中 样本 的 概率 进行 估计 ， 
并 且 根 据 概率 大 小 对 它们 进行 分 类 ， 将 会 影响 天 值 选择 的 经 验 性 。ALKNN ( Alternative KNN ) 
正 是 基于 这 样 的 思想 。 

在 AKNN 方法 中 ,以 志 与 类 gi; 的 下 个 近邻 中 最 远 一 个 样本 的 距离 为 半径 ， 以 x 为 中 心 ， 
计算 相应 的 超 球 的 体积 , 并 且 认为 超 球体 积 越 小 , 类 g; 在 志 处 的 概率 密度 越 大 。 其 概率 密度 可 用 
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下 式 计算 
| 
n[V(x, / g;)] 
其 中 : F (xsgi ) 为 类 g; 的 超 球 体积 ， 该 超 球 中心 为 x， 半 径 为 x-。 为 了 选择 到 和 相应 x 的 计算 ， 
可 采用 欧 氏 距离 ，m 维 超 球体 积 的 一 般 表达 式 为 


P(x/ g)= 





V(x,/g,)=(27)""r" [mT (m/2)] 


其 中 : 工 为 gamma 函数 。 
在 实际 计算 中 ， 上 述 方程 根据 m 的 奇偶 性 可 以 写成 下 列 两 种 形式 : 
当 m 为 偶数 时 : 





V(x / 8,) =(27)" rr"[m(m—2)(m—4)--] 
当 m 为 奇数 时 : 
Vs / 8)= 2 "Lm(m—2)(m—4)--] 
计算 时 必须 对 到 进行 优化 ， 这 样 才 能 对 各 类 概率 密度 的 测试 相 一 致 。K; 值 的 优化 公式 可 采 
| 下 列 公式 














max g(h)=YInp(s /8) 
对 样本 的 分 类 采用 后 验 概率 ， 其 计算 公式 为 
Plg, | 加 = Pelg)/ 六 [Peelg] 


即 样本 划 归 具有 最 大 后 验 概率 的 类 中 。 


9.2 K-means 聚 类 


K-means 聚 类 是 一 种 实际 应 用 较 多 的 聚 类 方法 ， 它 的 核心 思想 是 通过 和 迭代 把 数据 对 象 划分 到 
不 同 的 签 中 , 以 求 目标 函数 最 小 化 , 从 而 使 生成 的 簇 尽 可 能 地 紧凑 和 独立 。 给 定 样本 集 和 整数 玉 ， 
K-means 算法 将 样本 集 分 割 成 下 个 簇 , 每 个 聚 类 中 心 是 得 中 样本 的 均值 ; 然后 将 其 余 对 象 根据 其 
与 各 个 自 的 中 心 的 距离 分 配 到 最 近 的 复 , 再 求 新 形成 的 簇 的 中 心 。 这 个 和 迭代 重 定位 过 程 不 断 重复 ， 
使 得 每 个 徐 中 所 有 样本 与 其 中 心 的 距离 总 和 最 小 , 直至 目标 函数 最 小 化 为 止 。 此 算法 的 结果 受到 
聚 类 中 心 的 个 数 以 及 初始 育 类 中 心 的 选择 影响 , 也 受到 样本 几何 性 质 及 排列 次 序 影响 。 如 果 样 本 
的 几何 特性 表明 它们 能 形成 几 个 相距 较 远 的 小 块 孤立 区 域 ， 则 算法 都 能 收敛 。 

算法 原理 如 图 9.1 所 示 ， 具 体 描述 如 下 : 

(1 ) 确定 分 类 数目 (天 ) 和 最 大 迭代 次 数 。 

(2 ) 初始 化 。 随 机 取 天 个 样本 作为 聚 类 中 心 ,其 余 样 本 中 心 号 为 -1, 样本 到 本 类 中 心 的 距 
离 为 无 穷 大 。 

(3 ) 计算 其 余 样 本 到 天 类 中 心 的 距离 , 并 将 它 归 为 距离 最 近 的 类 , 到 所 有 样本 都 归 类 完毕 。 
计算 各 个 类 中 心 所 有 样品 特征 值 的 平均 值 作 为 该 聚 类 中 心 的 特征 值 。 

(4) 对 每 一 类 中 的 各 个 样本 ， 计 算 它 到 其 他 类 中 心 的 距离 ， 如 果 它 到 某 一 个 类 中 心 的 距离 
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小 于 它 到 自身 类 中 心 的 距离 ， 需 要 对 该 样本 重新 分 类 , 将 它 归属 到 距离 中 心 近 的 类 , 循环 重复 所 
有 的 样本 ， 直 至 不 再 有 样本 类 号 发 生变 化 。 











| 将 归 类 后 的 样本 重新 归 入 距离 最 近 的 类 
图 9.1 KkK-means 算法 示意 图 

面 对 大 规模 数据 集 , 该 算法 是 相对 可 扩展 的 , 并 且 具 有 较 高 的 效率 。 算 法 复杂 度 为 O (mi )， 
其 中 为 数据 集中 对 象 的 数 日 ,k 为 期 望 得 到 的 簇 的 数 日 ，+ 为 欠 代 的 次 数 ， 算 法 通常 终止 于 局 
部 最 优 解 。 

K-means 法 的 缺点 在 于 要 事先 给 出 期 望 生成 簇 的 数目 ， 这 在 某 些 应 用 中 是 不 实际 的 ， 另外 它 
不 适合 于 发 现 非 凸 面 形状 的 复 和 大 小 差异 较 大 的 复 ， 并 且 该 算法 对 “噪声 ”和 孤立 点 数据 敏感 。 

可 以 通过 考察 复 的 分 离 情况 和 艇 的 紧凑 情况 即 轮廓 系数 来 评估 聚 类 效果 。 其 计算 步骤 如 下 。 

(1 ) 从 数据 点 随机 取出 第 i 个 数据 点 ， 并 计算 该 点 到 5S 簇 中 其 他 所 有 数据 点 的 平均 距离 di。 

(2 ) 计算 该 点 到 所 有 其 他 簇 中 所 有 数据 点 的 平均 距离 ， 并 找到 最 小 平均 距离 Md。 

(3 ) 计算 轮廓 系数 SC=(M4d;-q)/Max(d;, Md)， 此 值 越 接 近 1， 说 明 该 点 的 划分 越 好 。 

(4 ) 将 徐 中 所 有 点 的 轮廓 系数 取 平均 值 ， 综 合 所 有 簇 的 平均 轮廓 系数 ， 此 值 越 高 的 分 类 方 
案 越 优 。 

在 MATLAB 中 利用 silhouette 函数 就 根据 聚 类 结果 绘制 轮廓 图 。 

在 初始 的 个 均值 选择 , 对 象 相 异 度 计算 、 簇 均值 的 计算 等 方面 采取 不 同 的 将 得 到 均值 算法 
的 很 多 变形 。 例如 大 模 方法 用 模 代替 簇 的 均值 ， 用 新 的 差异 度 度量 方法 处 理 对 象 ， 用 基于 频率 的 
方法 修改 簇 的 模 。 而 大 原型 方法 将 大 均值 和 大 模 算 法 集成 在 一 起 , 用 于 处 理 含 有 数值 和 分 类 值 属 
性 的 数据 聚 类 。 

K-means 算法 采用 往 的 质心 来 代表 一 个 复 ， 质 心 是 篮 中 其 他 对 象 的 参照 点 。 因 此 该 算法 对 孤 
立 点 是 敏感 的 ， 如 果 孤 立 点 具有 极 大 值 ， 就 可 能 大 幅度 地 扭曲 数据 的 分 布 。 此 时 可 用 K- 中 心 点 
算法 代替 K-means 算法 , 它 选择 簇 中 位 置 最 接近 簇 中 心 的 对 象 ( 即 中 心 点 ) 作为 簇 的 代表 点 , 目 
标 函数 仍然 可 以 采用 平方 误差 准则 。 

K- 中 心算 法 的 具体 描述 如 下 : 

(1 ) 确定 分 类 数目 (天 ) 和 最 大 迭代 次 数 ; 

(2 ) 选择 天 个 对 象 作为 初始 的 篮 中 心 ; 

(3 ) 对 每 个 对 象 ， 计 算 离 其 最 近 的 簇 中 心 点 ， 并 将 对 和 象 分 配 到 该 中 心 点 代表 的 簇 ; 

(4) 随机 选取 非 中 心 点 O; 
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(5 ) 计 算 用 O 代表 O;, 形成 新 集合 的 总 代价 S( 其 度量 为 对 象 与 代表 点 之 间 的 平均 相 异 度 ); 
(6) 如 果 S<0, 用 Oo 代替 0;， 形 成 新 的 个 中 心 点 的 集合 ; 
(7) 重复 (3) ~ (6)， 直 至 不 再 发 生变 化 。 
K-means 算法 中 距离 的 计算 基于 数值 型 数据 , 没有 明确 说 明 对 于 分 类 型 数据 如 何 处 理 。 此 外 ， 
它 对 于 噪声 和 离 群 点 数据 较为 敏感 。 为 了 克服 这 些 缺 点 ， 可 以 作 如 下 方面 的 改进 。 
在 初始 的 个 means 选择 ,对象 相 异 度 计算 、 簇 均值 的 计算 等 方面 采取 不 同 的 将 得 到 K-means 
算法 的 改进 算法 。 以 下 即 为 常用 的 三 种 改进 措施 。 
(1 ) 将 分 类 型 数据 转化 为 数值 型 数据 ， 再 利用 KK-means 算法 进行 聚 类 。 
对 于 具有 个 类 别 的 标 称 型 变量 , 采用 个 取 值 为 0 或 1 的 数值 型 变量 共同 来 表示 。 例如 变 
量具 有 三 个 类 别 4、B 和 CcC， 则 可 以 用 100 表示 4 类 别 ，010 表示 B 类 别 ，001 表示 C 类 别 。 
(2 ) 采 用 适用 于 纯 分 类 属性 数据 集 的 K-modes 算法 和 适用 于 混合 属性 数据 集 的 K-prototypes 算 
法 。 
K-modes 算法 采用 众 数 ( 取 值 频率 最 大 的 属性 值 ) 来 表示 分 类 属性 , 在 聚 类 过 程 中 采用 简单 
匹配 来 度量 分 类 属性 的 不 相似 性 。 
K-prototypes 算法 则 是 K-modes 算法 和 K-means 算法 的 结合 。 
(3 ) 采用 适用 于 混合 属性 数据 集 的 K-Summary 算法 。 
对 于 聚 类 分 析 而 言 , 簇 的 表示 和 数据 对 象 之 间 相 似 度 的 定义 是 最 基础 的 问题 , 直接 影响 到 数 
据 聚 类 的 效果 。 
假设 数据 集 D 有 m 个 属性 , 其 中 有 mc 个 分 类 属性 和 mw 个 数值 属性 , 用 D; 表 示 第 i 个 属性 
取 值 的 集合 。 
给 定 复 C、C 和 Cs, 对象 p=[pip2…pm] 与 9-[q1,q2,…, qm]， x>0 
@ 对 象 p,q 在 属性 D; 上 的 差异 度 ( 或 距离 ) dif(p,q) 定 义 为 























对 于 分 类 属性 或 二 值 属性 ， ao pe 


对 于 连续 型 属性 或 顺序 属性 ，dif(p,,g,) | p, -gq, 1 
@ 两 个 对 象 p,q 间 的 差异 程度 (或 距离 ) d(p,q) 的 定义 为 


dif(p,9) = (Tdif (pg)) 
时 对 象 p 与 和 C 间 的 距离 dlp.O 定 义 为 p 与 入 C 的 摘要 之 间 的 距离 
dp.0) = (Saif(p.g) 
其 中 ;diftpu 0 为 p 与 在 属性 D, 上 的 距离 ， 对 于 分 类 属性 ,其 定义 为 与 C 中 每 个 对 象 在 属 
性 Di 上 的 距离 的 算术 平均 值 ， 即 dif(pn 0) =1 ee , 对 于 数值 属性 PD 其 定义 为 





dif(p,,G)=|p,—o| 
式 中 : Freqap (Pp,) 为 频 度 ， 其 定义 为 C 在 D; 上 的 投影 中 p; 的 次 数 ; 摘要 是 由 分 类 属性 中 不 同 取 
值 的 频 度 信 息 和 数值 型 属性 的 均值 两 部 分 构成 : 


205 


四 实战 大 数据 一 一 MATLAB 数据 挖掘 详解 与 实践 


Summary = {< Stat,, Cen >| Stat, = {(a, Freqap, (a)|laeD},l<i< me, Cen=(c,, i )} 
图 徐 C1 与 C* 间 的 距离 d(C1.C2) 定 义 为 两 个 徐 的 摘要 之 间 的 距离 


d(C 0) = Sito Coy) 





其 中 ，dif(C®,C®) 为 Ci 与 C? 在 属性 D; 上 的 距离 ， 对 于 分 类 属性 D; 其 定义 为 Ci 中 每 个 对 象 与 
中 每 个 对 象 的 差异 的 平均 值 


dif(C®,C?)=1- 








1 
F FF 
NG i 之 Teqclp (pj)°Freqe,p (Pp)) 


1 
=1- a 2 Freqan, (q/)°Freqe,p, (q)) 


IG HHC 1 
对 于 数值 型 属性 D; 其 定义 为 
dif(C®,C®)=e® -ec® | 
例如 假设 描述 学 生 的 信息 包含 属性 : 性 别 、 籍 贯 、 年 龄 。 有 两 条 记录 p、g 及 两 个 簇 CC， 
CC 的 信息 ， 可 以 求 出 记录 和 簇 彼此 间 的 距离 为 
P={ 男 , 广州，18}，gq={ 女 ， 深 圳 ，20} 
Ci={ 男 : 25， 女 : 5; 广州 : 20, 深圳 6， 韶 关 : 4; 19} 
C={ 男 : 3， 女 : 12; 汕头 : 12， 深 圳 : 1， 淇 江 : 2; 24} 
按 以 上 的 定义 ， 取 x1 得 到 的 距离 如 下 : 
d(p,q)=1+1+(20-18)=4 
d(p,C1)=(1—25/30)+(1—20/30)+(19—18)=1.5 
d(p,C2)=(1—3/15)+(1—0/15)+(24—18)=7.8 
d(q,C1)=(1—5/30)+(1-6/30)+(20—19)=2.63 
d(q,C2)=(1—12/15)+(1—1/15)+(24—19)=5.13 
d(C1,C2)=1—(25*3+5*12)/(30*15)+1—6*1/(30*15)+24—19)=6.69 
用 以 上 的 定义 就 可 以 使 原来 仅 适 用 于 数值 属性 或 分 类 属性 的 聚 类 算法 不 受 数据 类 型 的 限制 
而 应 用 于 任何 数据 类 型 。K-Summary 算法 就 是 采用 了 以 上 定义 的 K-means 算法 ， 它 由 以 下 的 主 
要 步骤 完成 : 
@ 初始 化 : 选择 下 个 对 象 ， 创 建 久 个 徐 的 摘要 信息 (CSD); 
@ 划分 对 象 到 最 近 的 簇 ; 
@ 重新 计算 每 个 徐 的 CSI; 
@ 重复 步骤 @ 和 @ 直 到 选用 的 度量 函数 收敛 , 如 误差 和 变化 很 小 或 相 邻 两 次 迭代 没有 对 象 
从 一 个 簇 移动 到 另 一 个 簇 。 


9.3 基于 MATLAB 的 近邻 法 及 K-means 聚 类 法 


例 2.55 胃病 病人 和 非 胃病 人 的 生化 指标 测量 值 如 表 9.1 所 示 。 试 用 近邻 法 对 某 未 知 样本 进 
行 判 别 。 
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表 9.1 胃病 病人 和 非 胃病 人 生化 指标 的 测定 值 





























胃病 类 型 铜 蓝 蛋白 (Xt) 中 性 硫化 物 x4) | 归 类 
228 20 11 1 
胃 245 40 1 
200 区 1 
病 170 8 1 
100 14 1 
150 6 2 
120 26 
非 160 10 2 
胃 185 19 2 
病 170 4 2 
165 3 
185 12 2 

225 14 

未 知 样本 100 2 

130 12 

解 : 


在 MATLAB 中 ， 有 专门 的 K- 近 邻 法 分 类 函数 ， 其 调用 格式 为 
class =knnclassify (sample,training,group); 
class =knnclassify (sample, training, group, K); 
class = knnclassify (sample,training, group, k,distance); 
class = knnclassify (sample, training, group, k,distance, rule); 
其 中 sample、training、group 分 别 为 测试 样本 、 训 练 样本 及 训练 样本 对 应 的 类 别 号 ; K 为 近邻 法 ， 默 
认 值 为 1; distance 为 距离 , 可 以 选 euclidean、 cityblock、cosine、 Correlation、Hamming; 
rule 为 表决 规则 ， 可 以 选 nearest、random、consensus。 
>>load YX N=knnclagsify(w(l: 1 Ne L200 OO OL 


1] ,2,'cityblock', 'nearest'); 


y=0 1 1 
例 2.56 对 例 2.55 的 数据 用 区 -均值 法 进行 聚 类 分 析 。 
解 : 


在 MATLAB 中 ， 有 专门 的 -均值 聚 类 算法 函数 ， 其 调用 格式 为 
IDX=kmeans (X, k) 

[IDX,C]=kmeans (XxX, k) 

[IDX,C, sumd]=kmeans (xX, k) 


[IDX,C,sumd,D] = kmeans (X, k) 
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[...] = kmeans(...,paraml,vall,param?2,val2,...) 
其 中 各 参数 的 意义 参见 MATLAB 中 此 函数 的 帮助 文档 。 

还 可 以 利用 silhouette 函数 根据 聚 类 结果 绘制 轮廓 图 。 从 轮廓 图 上 能 看 出 每 个 点 的 分 类 是 否 
合理 。 轮 廓 图 上 第 i 个 点 的 轮 廊 图 定义 为 


























5 = 
max[a, min(b)] 
其 中 : SQ) 为 第 i 个 点 与 同类 的 其 他 点 之 间 的 平均 距离 ，5 为 一 个 向 量 ， 其 元 素 是 第 i 个 点 与 不 同 
类 的 类 内 各 点 之 间 的 平均 距离 。 轮 廓 值 SQ) 的 取 值 范围 为 [-1,1]，5SQ@) 值 越 大 ,说 明 第 i 个 点 的 分 
类 越 合 理 ， 当 SG)<0 时 ,说 明 第 i 个 点 的 分 类 不 合理 ， 还 有 比 目 前 分 类 更 合理 的 方案 。 
利用 此 函数 对 表 中 数据 进行 分 析 ， 可 得 到 以 下 结果 , 可 以 看 出 ,其 中 有 两 个 样品 的 类 别 与 原 
来 的 类 别 有 所 差异 ， 而 且 如 果 函 数 用 不 同 的 参数 进行 计算 ， 可 得 到 不 同 的 结果 。 


>>1oad x; y=kmeans (x,2,'distance','city')' 











De 0 D9 SM 人、 
>> [s,h]=silhouette(x,y,'city');  $ 得 图 9.1 





Cluster 








1 1 
0.4 0.6 0.8 a 
Silhouette Value 





口 
So 
[9 


图 9.1 k-means 聚 类 值 
例 2.57 对 表 9.2 中 的 数据 集 ， 采 用 KK-Summary 算法 将 其 划分 为 两 个 类 。 
表 9.2 某 银 行 拖欠 贷款 情况 数据 表 





拖欠 贷款 


no 





no 





ov|- 


no 
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续 表 
序 号 年 收 入 拖欠 贷款 
4 120K no 
5 divorced 95K yes 
6 married 60K no 
bd divorced 220K no 
8 single 85K yes 
9 married 75K no 
10 90K yes 
解 : 


根据 K-Summary 算法 原理 ， 编 程 计算 如 下 ， 其 中 因为 聚 类 是 一 种 无 指导 的 方法 ， 所 以 计算 
时 不 使 用 标志 位 ， 即 表 中 的 数据 只 选用 前 三 栏 。 


>>data={'yes' "single' 125;'no' 'married'100;'no' 'single' 70;'yes' 'married' 





120;'no' 'divorced' 95;'no' 'married' 60;'yes' 'divorced' 220;'no' 
'single' 85;'no' 'married' 75;'no' 'single'90}; 
>>k=2;type=[1 1 0]; 
>> [y,ceter]=ksummary (data, k, type); sy 为 分 类 结果 ，ceter 为 相应 的 分 类 中 心 
>> Ti 站 全 用人 : 玖 六 人 太 
>> y{2}=1 4 7; 
>> ceter{1}=total: 7 
proper: {{1x2 cell} {1x3 cell} [82.1429]} 
>> ceter{2}=total: 3 


proper: {{1lx2 cell} {lx3 cell} [155]} 
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第 3 篇 ”数据 挖掘 相关 技术 


数据 挖掘 方法 是 由 人 工 智能 、 机 器 学 习 的 方法 发 展 而 来 ,结合 传统 的 统计 分 析 方 法 、 模 糊 数 
学 方法 以 及 科学 计算 可 视 化 技术 ， 以 数据 仓库 为 研究 对 象 ， 形 成 的 数据 挖掘 的 方法 和 技术 。 


s1 0 s 


数据 仓库 
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10.1 概述 


如 何 有 效 地 管理 企业 在 经 营 过 程 中 所 产生 或 收集 的 大 量 数 据 与 信息 , 一 直 是 信息 管理 人 员 所 
面临 的 一 个 重要 问题 。20 世纪 70 年 代 所 出 现 的 关系 数据 库 在 收集 、 存 储 、 处 理 数据 中 发 挥 了 重 
要 的 作用 。 随 着 市 场 竞争 的 加 剧 , 信息 系统 的 用 户 已 经 不 能 满足 仅 用 计算 机 去 处 理 日 复 一 日 的 事 
务 数据 ,而 是 需要 信息 即 能 够 支持 决策 的 信息 去 帮助 管理 决策 。 这 就 需要 一 种 能 够 将 日 常 业务 处 
理 中 所 收集 到 的 各 种 数据 转变 为 具有 商业 价值 信息 的 技术 。 而 传统 数据 库 系 统 已 经 无 法 承担 这 一 
责任 。 

传统 数据 库 对 日 常事 务 处 理 十 分 理想 , 但 是 要 基于 事务 处 理 的 数据 库 帮 助 决策 分 析 , 就 产生 

了 很 大 的 困难 。 其 原因 主要 是 传统 数据 库 的 处 理 方式 和 决策 分 析 中 的 数据 需求 不 相称 , 导致 传统 
数据 库 无 法 支持 决策 分 析 活 动 。 这些 不 对 称 主要 体现 在 决策 处 理 中 的 系统 响应 问题 、 决 策 数据 需 
求 的 问题 和 决策 数据 操作 问题 。 

为 了 解决 传统 数据 库存 在 的 这 些 问题 而 将 其 用 于 决策 系统 ,通过 数据 库 发 展 而 衍生 出 数据 仓库 。 

数据 仓库 是 近年 来 在 信息 管理 领域 得 到 迅速 发 展 的 一 种 面向 主题 的 、 集 成 的 、 随 时 间 变 化 的 、 
非 易 失 性 数据 的 集合 ， 其 目的 在 于 支持 管理 层 的 决策 。 数 据 仓库 通常 主要 包含 数据 仓库 数据 库 、 
数据 集 市 知识 挖掘 库 、 数 据 源 、 数 据 准 备 区 以 及 各 种 管理 工具 和 服务 工具 。 数 据 仓库 建立 后 ， 先 
要 从 数据 源 中 抽取 所 需 的 数据 到 数据 准备 区 , 在 数据 准备 区 中 经 过 数据 的 净化 处 理 , 再 加 载 到 数 
据 仓 库 数据 库 中 ,最 后 根据 用 户 的 需求 将 数据 发 布 到 数据 集 市 中 。 当 用 户 使 用 数据 仓库 时 ,可 以 
通过 联机 处 理 ( OLAP )、 数 据 挖 掘 等 数据 仓库 应 用 工具 , 向 数据 集 市 知识 挖掘 库 或 数据 仓库 进行 
决策 查询 分 析 或 知识 挖 据 。 所 以 从 本 质 上 讲 , 数据 仓库 是 数据 库 技术 的 一 种 新 的 应 用 ,是 一 种 解 
决 方案 , 能 够 对 原始 的 操作 数据 进行 各 种 处 理 并 转换 成 有 用 信息 , 用 户 可 以 通过 分 析 这 些 信 息 做 
出 策略 性 决策 。 到 目前 为 止 , 大 多 数 数据 仓库 产品 还 是 用 数据 库 管 理 系统 来 管理 其 中 的 数据 。 

数据 仓库 虽然 是 以 数据 库 发 展 而 来 的 ， 但 是 两 者 在 许多 方面 都 存在 着 相当 大 的 差异 ， 如 
表 10.1 所 示 。 



































表 10.1 数据 仓库 与 数据 库 对 比 表 








对 比 内 容 数据 库 数据 仓库 
数据 内 容 当前 值 历史 的 、 存 档 的 、 归 纳 的 、 计 算 的 数据 
数据 目标 面向 业务 操作 程序 ， 重 复 处 理 面向 主题 域 ， 分 析 应 用 
数据 特性 动态 变化 、 按 字段 更 新 静态 、 不 能 直接 更 新 ， 只 能 定时 添加 、 刷 新 
数据 结构 高 度 结构 化 、 复 杂 ， 适 合 操作 计算 | 简单 、 适 合 分 析 
使 用 频率 高 中 到 低 
数据 访问 量 每 个 事务 只 访问 少量 记录 有 的 事务 可 能 需要 访问 大 量 记录 
对 响应 时 间 的 要 求 “| 以 秒 为 单位 计算 以 秒 、 分 甚至 时 为 计算 单位 








10.1.1 数据 仓库 重要 特性 

数据 仓库 可 以 定义 为 : 一 个 面向 主题 的 、 集 成 的 随时 间 变 化 的 非 易 失 性 数据 的 集合 ,用 于 支 
持 管理 层 的 决策 过 程 。 从 定义 中 可 以 发 现 数据 仓库 具有 这 样 一 些 重要 的 特性 : 面向 主题 性 、 数据 
集成 性 、 数 据 的 时 变性 、 数 据 的 非 易 失 性 、 数 据 的 集合 性 和 支持 决策 作用 。 
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1. 面向 主题 性 


面向 主题 性 表示 数据 仓库 中 数据 组 织 的 基本 原则 ， 数 据 仓库 中 的 所 有 数据 都 是 围绕 着 某 一 
主题 组 织 、 展 开 的 。 所 谓 的 主题 就 是 在 一 个 较 高 的 管理 层次 上 对 信息 系统 中 的 数据 按照 某 一 具体 
的 管理 对 象 进行 综合 、 归 类 所 形成 的 分 析 对 象 ， 也 可 以 是 一 些 数据 集合 , 这些 数 据 集合 对 分 析 对 
象 进行 了 比较 完整 的 、 一 致 的 数据 描述 ， 这 种 描述 不 仅 涉 及 数据 自身 ， 还 涉及 数据 之 间 的 数据 。 
在 主题 的 划分 中 ,必须 保证 每 个 主题 的 独立 性 , 也 就 是 说 , 每 一 个 主题 要 具有 独立 的 内 涵 ， 明 确 
的 界线 。 确 定 主 题 以 后 , 需要 确定 应 该 包含 的 数据 。 此 时 应 注意 不 能 将 于 绕 主 题 的 数据 与 业务 处 
理 系 统 中 的 数据 相 混淆 。 

如 在 企业 销售 管理 中 的 管理 人 员 所 关心 的 是 本 企业 哪些 产品 销售 量 大 、 利 润 高 , 哪些 客户 采 
购 的 产品 数量 大 ， 竞 争 对 手 的 哪些 产品 对 本 企业 产品 构成 威胁 ， 根 据 这些 管 理 决策 的 分 析 对 象 ， 
就 可 以 抽象 出 “产品 ”“ 客 户 ” 等 主题 。 但 诸如 “产品 订单 ”“ 产 品 库 存 ” 等 有 关 “ 产 品 ” 的 数据 
只 是 业务 处 理 系 统 中 的 业务 操作 数据 ， 并 不 能 完成 对 “客户 ”的 分 析 ， 因 为 还 缺少 客户 的 产品 采 
购 量 、 最 后 一 次 采购 时 间 、 购 买 竞争 对 手 的 产品 等 数据 。 所 以 在 确定 “客户 ”这 一 主题 ， 需 要 重 
新 进行 数据 的 组 织 。 


2. 数据 集成 性 


数据 仓库 的 集成 性 是 指 根据 决策 分 析 的 要 求 , 将 分 散 于 各 处 的 源 数据 进行 抽取 、 筛选 、 清 理 、 
综合 等 集成 工作 ， 使 数据 仓库 中 的 数据 具有 集成 性 。 

数据 仓库 所 需要 的 数据 并 不 是 直接 从 业务 发 生地 获取 , 而 是 从 与 业务 处 理发 生 直接 联系 的 业 
务 处 理 系统 中 获取 , 因此 需要 对 数据 进行 一 系列 的 预 处 理 ， 即 数据 的 抽取 筛选 、 清 理 和 综合 等 集 
成 工作 ,将 数据 源 中 数据 的 单位 、 字 长 与 内 容 统一 ， 消 除 源 数据 中 字段 的 同名 异 义 、 异 名 同 义 等 
现象 。 


3. 数据 的 时 变性 


数据 的 时 变性 是 指数 据 应 随 着 时 间 的 推移 而 发 生变 化 。 数 据 仓库 的 数据 不 能 长 期 不 变 ,必须 
能 够 不 断 地 捕捉 业务 系统 中 的 变化 数据 , 将 那些 变化 的 数据 追加 到 数据 仓库 中 去 , 即 不 断 地 生成 
业务 数据 库 的 快照 ,以 满足 决策 分 析 的 需要 。 这 些 快照 可 以 产生 数据 仓库 的 连续 动态 变化 图 , 有 
助 于 决策 分 析 。 

数据 仓库 数据 的 变化 , 不 仅 反映 在 数据 的 追加 方面 ,而 且 还 反映 在 数据 删除 上 。 数 据 仓库 中 
数据 的 存放 期 一 般 为 5~10 年 ， 越 过 此 时 间 则 删除 。 

数据 仓库 中 数据 的 变化 还 表现 在 概括 数据 的 变化 上 。 数 据 仓库 中 的 概括 数据 是 与 时 间 有 关 
的 , 概括 数据 需要 按照 时 间 进 行 综合 、 按 照 时 间 进 行 抽取 。 为 满足 数据 仓库 中 数据 的 时 变性 需要 
而 进行 的 操作 称 为 数据 刷新 。 











4. 数据 的 非 易 失 性 


数据 仓库 的 非 易 失 性 是 指数 据 仓库 中 的 数据 不 经 常 进行 更 新 处 理 , 因为 数据 库 中 的 数据 大 多 
表示 过 去 某 一 时 刻 的 数据 , 主要 用 于 查询 。 数 据 的 非 易 失 性 可 以 支持 不 同 的 用 户 在 不 同 的 时 间 查 
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询 相同 的 问题 时 ， 获 得 相同 的 结果 。 
5. 数据 的 集合 性 


数据 仓库 的 集合 性 意味 着 数据 仓库 必须 以 某 种 数据 集合 的 形式 存储 起 来 。 目前 数据 的 集合 方 
式 主要 是 以 多 维 数据 库 方式 进行 存储 的 多 维 模式 , 以 关系 数据 库 方式 进行 存储 的 关系 模式 或 以 两 
者 相 结 合 的 方式 进行 存储 的 混合 模式 。 

6. 支持 决策 作用 


数据 仓库 组 织 的 根本 目的 在 于 对 决策 的 支持 。 管 理 决策 者 可 从 貌似 平淡 的 数据 中 敏锐 地 发 现 
众多 的 商机 ， 为 决策 者 对 数据 的 自我 分 析 提 供 了 便利 ， 提 供 了 辅助 决策 分 析 的 有 力 工具 。 


10.1.2 ”数据 仓库 中 几 个 重要 概念 





1. 维 


在 应 用 数据 仓库 进行 决策 分 析 时 , 经 常 需要 选择 一 个 对 决策 活动 有 重要 影响 的 因素 去 进行 决 
策 分 析 。 因 此 , 用 户 在 使 用 数据 仓库 时 所 使 用 的 决策 分 析 角 度 或 决策 分 析出 发 点 构成 了 数据 仓库 
的 维 。 如 客户 、 产 品 或 供应 商 、 地 点 、 渠 道 、 事 件 发 生 的 时 间 等 角度 都 可 以 是 数据 仓库 的 维 。 

数据 仓库 的 维 还 可 以 作为 数据 仓库 操作 过 程 的 途径 ， 这 些 路 径 通常 位 于 维 的 不 同 层次 结构 
中 ,例如 客户 可 以 按 地 理 位 置 进行 分 组 : 街道 、 县 、 市 、 省 。 这 样 就 可 以 按 街道 、 县 、 市 、 省 的 
先后 次 序 进行 数据 的 “上 卷 ” 和 “下 钻 ”。 前 者 是 指 用 户 在 数据 仓库 的 应 用 中 ， 从 较 低 层次 的 数 
据 开始 逐步 将 数据 按 层次 进行 概括 处 理 ; 后 者 是 指 从 数据 仓库 中 的 高 层 数据 开始 逐步 向 低层 数据 
探索 ， 了 解 概括 数据 的 具体 细节 。 

现在 最 流行 的 数据 仓库 多 为 多 维 数据 模型 ， 可 分 为 星 型 、 雪 花 和 星座 三 种 模式 ， 如 图 10.1 
所 示 。 





























(a) 星 型 





图 10.1 多 维 数据 仓库 模式 


2. 数据 立方 体 


当 用 户 观察 某 一 事务 的 角度 不 同时 ,围绕 该 事务 会 产生 多 个 观察 角度 , 也 即 产生 多 维 。 数 据 
仓库 中 的 多 种 维 交 点 , 就 是 数据 仓库 用 户 所 需要 观察 的 事务 。 数 据 仓库 的 立方 体 实际 上 是 一 个 包 
含 用 户 需要 观察 数据 的 集合 体 ， 它 提供 企业 感 兴趣 的 商业 事务 。 如 图 10.2 即 为 数据 立方 体 。 
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图 10.2 数据 立方 体 


3. 聚集 


聚集 或 聚合 是 指 收集 了 基本 事务 数据 的 结构 。 在 一 个 立方 体 中 包括 很 多 层次 , 这 些 层次 可 以 
向 用 户 提供 某 一 层次 的 概括 数据 。 例 如 地 区 销售 经 理想 了 解 本 地 区 的 销售 总 量 、 未 来 的 销售 趋势 、 
客户 的 类 型 ， 就 需要 按 本 地 区 的 城市 、 街 道 、 产 品种 类 和 客户 类 型 进行 概括 ， 也 就 是 进行 聚集 。 
通过 诊 集 ， 形 成 基于 维 的 有 决策 分 析 意 义 的 一 些 数据 交集 。 


4. 数据 颗粒 度 


数据 颗粒 度 是 指数 据 的 细 化 程度 。 数 据 粒 度 越 小 ， 信 息 越 细 ,数据 量 越 大 ; 颗粒 粒度 越 大 ， 
就 忽略 了 众多 的 细节 ， 数 据 量 越 小 。 

数据 的 综合 程度 还 会 影响 数据 的 用 途 。 对 于 非常 细致 的 问题 ,细节 数据 非常 合适 , 但 对 于 综 
合 程度 较 高 的 问题 ， 使 用 综合 数据 就 可 以 迅速 回答 这 个 问题 。 

粒度 的 另 一 种 形式 是 抽样 率 , 即 以 一 定 的 抽样 率 对 数据 仓库 中 的 数据 进行 抽样 后 得 到 一 个 样 
本 数据 库 ， 数 据 挖 气 在 这 个 样本 数据 库 上 进行 。 


5. 元 数据 


元 数据 是 指数 据 仓库 创建 过 程 中 产生 的 有 关 数 据 源 定义 、 目 标定 义 、 转 换 规则 等 关键 数据 ， 
是 定义 数据 仓库 对 象 的 数据 。 元 数据 还 包含 关于 数据 含义 的 商业 信息 ， 如 图 10.3 所 示 。 
元 数据 






销售 
客户 活动 万 风 数据 【了 i 
客户 历史 数据 客户 投诉 历史 数据 
销售 报价 历史 数据 。 销售 商 亡 史 数 据 


图 10.3 元 数据 
元 数据 用 作 目 录 , 可 以 帮助 决策 支持 系统 者 定位 数据 仓库 的 内 容 ; 当 从 操作 环境 转移 到 数据 
仓库 环境 时 ， 元 数据 可 以 作为 数据 映射 指南 。 
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10.2 ”数据 仓库 设计 
下 面 以 图 10.4 所 示 的 某 中 药 数据 仓库 的 设计 为 例 ， 介 绍 数据 仓库 设计 的 一 些 基本 概念。 
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为 治疗 疾病 、 症 候 
或 症状 提供 相关 实 
验 指标 排序 





为 治疗 某 种 疾病 、 辣 候 
或 症状 提供 相关 语 方剂 
或 单 味 药 排序 


为 某 种 单 味 药 、 化 
学 成 分 或 方剂 提供 






相关 括 病 、 症 候 或 
症状 的 动物 模型 、 


标 、 药 理 、 
性 打 结 理 和 栖 坚 数 
据 的 排序 





图 10.4 某 中 药 数据 仓库 的 设计 


10.2.1 ”数据 仓库 的 总 体 结构 


数据 仓库 是 近年 IT 技术 和 信息 管理 迅速 发 展 的 结果 。 如 果 从 数据 仓库 的 概念 结构 看 ， 应 该 
包括 数据 源 、 数 据 准备 区 、 数 据 仓库 数据 库 、 数 据 集 市 知识 挖掘 库 以 及 各 种 管理 工具 和 应 用 工具 ， 


结构 框图 如 图 10.5 所 示 。 
应 用 工具 A 
用 户 


应 用 工具 
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图 10.5 数据 仓库 的 概念 仓库 
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10.2.2 ”数据 仓库 的 基本 功能 层 


数据 仓库 的 基本 功能 部 分 包含 数据 源 、 数 据 准备 区 、 数 据 仓库 数据 库 、 数 据 集 市 知识 挖掘 库 ， 
以 及 存 取 与 使 用 功能 部 分 。 

(1 ) 数据 源 。 数 据 源 是 指 存储 在 数据 仓库 中 的 数据 来 源 ， 它 包含 业务 数据 、 历 史 数据 、 办 
公 数 据 、Web 数据 、 外 部 数据 以 及 数据 源 元 数据 。 

在 这 些 数据 加 载 到 数据 仓库 中 前 , 应 使 其 格式 符合 数据 仓库 中 数据 的 格式 , 加载 到 数据 仓库 
中 的 数据 应 具有 重要 的 使 用 价值 。 
(2 ) 数据 准备 区 。 由 于 数据 仓库 的 数据 来 源 十 分 复杂 ， 这 些 数据 在 进入 数据 库 之 前 常常 需 
要 在 数据 准备 区 进行 筛选 、 清 理 等 标准 化 处 理 。 因 此 数据 准备 区 由 数据 标准 化 处 理 、 数 据 的 过 滤 
匹配 、 数 据 的 净化 处 理 、 标 明 数 据 的 时 间 戳 、 确 认 数据 质量 与 元 数据 抽取 和 创建 等 操作 组 成 。 
数据 的 标准 化 处 理 主要 是 将 同名 不 同 内 容 的 、 同 内 容 而 不 同名 的 、 同 名 同 内 容 但 不 同 结构 的 
数据 进行 标准 化 处 理 ， 以 便 在 数据 仓库 的 使 用 中 不 至 于 产生 混乱 。 

数据 的 过 滤 与 匹配 主要 是 对 进入 数据 仓库 的 数据 按照 用 户 的 需要 进行 筛选 , 将 用 户 不 需要 的 
数据 从 数据 源 中 删除 ， 而 留 下 的 数据 要 能 够 与 数据 仓库 用 户 的 需求 相 匹 配 。 

数据 的 净化 处 理 主要 是 对 准备 加 载 到 数据 仓库 中 的 数据 进行 正确 性 判断 , 将 那些 数据 内 容错 
误 、 格 式 错误 或 类 型 错误 的 数据 进行 修正 、 净 化 处 理 。 

(3 ) 数据 仓库 数据 库 。 数据 仓库 数据 库 由 数据 重 整 、 数 据 仓库 创建 以 及 元 数据 管理 部 分 组 成 。 

数据 重 整 是 为 使 数据 仓库 能 够 更 好 地 为 用 户 服务 所 进行 的 一 系列 预 操作 ， 包 含 数 据 的 集成 与 
分 解 、 数 据 的 概括 与 聚集 、 数 据 的 预算 与 推导 、 数 据 的 翻译 与 格式 化 、 数 据 的 转换 和 元 数据 创建 。 

数据 的 集成 是 指 对 来 自 不 同系 统 中 的 数据 进行 集成 , 以 创建 新 的 数据 。 有 时 还 要 按照 数据 库 
处 理 的 需要 将 一 个 表 中 的 数据 分 解 成 数据 仓库 中 的 两 个 或 多 个 数据 块 。 

数据 仓库 在 存储 数据 时 ， 经 常 按 数据 的 时 间 顺 序 、 业 务 范围 、 发 生地 域 等 进行 分 割 存 储 ， 以 
便于 用 户 的 分 析 和 提高 数据 仓库 的 使 用 效率 , 但 是 , 在 实际 操作 中 又 经 常 需要 对 数据 进行 概括 与 
聚集 处 理 ， 即 根据 某 一 属性 对 数据 进行 汇总 。 

为 了 提高 数据 仓库 的 使 用 效率 ， 在 数据 仓库 中 需要 事先 对 使 用 者 的 常规 操作 进行 预先 设置 ， 
即 无 须 用 户 干预 就 可 实现 数据 的 一 些 计算 即 为 数据 的 预算 与 推导 。 

数据 的 翻译 与 格式 化 是 指 对 来 自 不 同 数据 源 的 数据 进行 翻译 和 格式 化 处 理 , 便于 今后 的 统一 
处 理 。 

数据 的 转换 是 因为 数据 仓库 的 数据 源 中 的 数据 结构 基本 上 是 标准 关系 模式 , 而 数据 仓库 则 大 
多 数 采用 星 型 或 雪花 模型 , 这 两 者 的 差异 必须 依靠 数据 的 转移 与 映像 来 消除 , 也 就 是 将 这 两 者 不 
同 的 数据 模式 以 某 种 方式 连接 起 来 ， 将 数据 源 数据 转化 为 适合 数据 仓库 事实 表 的 行 的 过 程 。 

(4 ) 数据 仓库 的 创建 是 指 完成 数据 仓库 的 建 模 、 数 据 的 概括 、 数 据 的 聚集 、 数 据 的 调整 与 
确认 、 建 立 结构 化 查询 和 创建 词汇 表 。 

数据 仓库 的 建 模 是 指 或 从 已 经 创建 的 数据 模型 中 导出 数据 仓库 的 数据 模型 , 或 构造 新 的 数据 
模型 。 在 数据 仓库 模型 的 设计 过 程 中 ， 需 要 完成 数据 的 分 割 、 主 题 域 和 粒度 的 确认 。 

数据 概括 是 指 根据 用 户 的 需要 对 数据 进行 概括 , 从 初步 的 概括 数据 中 创建 用 户 所 需要 的 高 度 
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概括 数据 。 

在 数据 仓库 中 ， 常 要 根据 一 些 典型 的 查询 要 求 ， 对 数据 仓库 中 数据 聚集 处 理 ， 以 提高 效率 。 
例如 可 以 对 产品 的 地 区 分 布 、 品 牌 的 分 布 进行 事先 聚集 , 才能 使 用 户 在 数据 仓库 的 使 用 中 每 次 都 
感受 到 信息 使 用 时 间 的 一 致 性 。 

在 数据 完成 概括 聚集 以 后 ， 需 要 对 概括 与 聚集 后 的 数据 进行 确认 ,如果 数据 概括 、 聚 集 的 效 
果 不 好 ， 还 需要 进行 一 些 调整 ， 以 保证 数据 仓库 的 使 用 效果 。 

建立 结构 化 查询 是 指 为 了 提高 一 些 结构 化 查询 , 可 以 预定 义 这 些 查 询 , 且 将 这 些 结构 化 查询 
作为 元 数据 存储 在 元 数据 库 中 。 当 用 户 进行 数据 仓库 的 实际 查询 应 用 时 , 只 要 从 元 数据 库 中 取 回 ， 
可 以 大 大 提高 数据 仓库 的 运行 效率 。 

在 创建 数据 仓库 的 过 程 中 , 需要 根据 所 捕获 的 元 数据 建立 元 数据 的 词汇 表 。 在 词汇 表 中 一 般 
需要 包含 元 数据 的 名 称 、 别 名 、 简 述 、 创 建 时 间 、 上 次 更 新 时 间 、 关 键 词 、 数 据 来 源 、 转 移 / 转 
换 信息 、 概 括 或 推导 算法 等 内 容 。 

(5 ) 数据 集 市 知识 挖掘 库 结构 。 数 据 集 市 知识 挖掘 库 的 功能 与 数据 仓库 的 功能 极为 相似 ， 
只 是 数据 集 市 的 目的 是 为 某 个 部 门 或 某 个 领域 的 用 户 提供 服务 , 而 数据 仓库 则 是 为 全 体 用 户 提供 
服务 。 因 此 ,可 以 将 数据 集 市 知识 挖掘 库 看 成 数据 仓库 的 一 个 逻辑 上 或 物理 上 的 子 集 。 数 据 集 市 
知识 挖掘 库 中 也 包含 用 户 所 需要 查询 的 详细 数据 和 概括 性 数据 。 

(6 ) 数据 仓库 的 数据 存 取 与 使 用 。 数 据 仓库 的 数据 存 取 与 使 用 是 使 用 数据 仓库 的 最 终 目 的 ， 
为 数据 仓库 的 最 终 用 户 提供 决策 分 析 和 挖掘 知识 的 功能 。 它 可 分 为 数据 仓库 存 取 与 检索 部 分 以 及 
数据 仓库 分 析 与 报告 部 分 这 两 部 分 。 

数据 仓库 存 取 与 检索 部 分 为 用 户 提供 访问 数据 仓库 或 数据 集 市 的 功能 , 利用 这 些 功 能 可 将 用 
户 检索 的 数据 转换 成 多 维 数据 并 且 存 入 多 维 数据 库 , 可 以 将 数据 仓库 或 数据 集 市 中 的 数据 * 纯 载 ” 
下 来 ， 成 为 局 部 存储 数据 ， 便 于 用 户 进行 局 部 分 析 、 数 据 查 询 、 翻 译 转换 等 处 理 。 

为 了 用 户 使 用 方便 , 还 应 提供 管理 与 使 用 数据 仓库 元 数据 功能 。 这 些 功能 可 以 帮助 用 户 了 解 
数据 仓库 或 数据 集 市 的 名 称 、 描 述说 明 、 数 值 、 价 值 来 源 以 及 版 本 等 内 容 ， 了 解数 据 的 名 称 、 数 
据 等 内 容 和 数据 从 抽取 到 存 入 数据 仓库 或 数据 集 市 的 转移 过 程 ， 了 解数 据 的 定位 和 数据 的 可 靠 
性 ， 以 及 如 何 存 取 和 使 用 数据 。 利 用 这 些 功 能 可 以 帮助 用 户 掌握 数据 的 正确 内 容 、 信 息 的 粒度 、 
信息 的 概括 程度 、 原 始 数据 的 来 源 和 日 期 ， 并 且 可 以 按 其 上 下 文 查看 数据 ， 将 数据 转化 为 信息 。 

数据 仓库 分 析 与 报告 为 最 终 用 户 使 用 数据 仓库 提供 一 组 工具 , 可 使 用 户 依靠 数据 仓库 或 数据 
集 市 进行 决策 分 析 或 知识 挖掘 。 这 些 工具 包括 报表 处 理工 具 ， 分 析 与 决策 支持 工具 、 业 务 建 模 与 
分 析 处 理工 具 ， 数 据 挖掘 工具 等 。 如 地 理 信息 系统 ( GIS )， 数 据 采 集 工 具 、 联 机 分 析 处 理 、 可 视 
化 工具 、 统 计 工 具 、 浏 览 器 、 图 形 用 户 界面 建立 程度 、 电 子 表格 、 报 表 生 成 器 和 数据 访问 工具 等 。 

(7 ) 数据 仓库 的 管理 层 。 数 据 仓库 管理 层 由 数据 仓库 的 数据 管理 和 数据 仓库 的 元 数据 管理 
组 成 。 

数据 仓库 的 数据 管理 层 包括 数据 抽取 、 新 数据 需求 与 查询 管理 ， 数 据 加 载 , 存储、 刷新 和 更 
新 系统 ， 安 全 性 与 用 户 授权 管理 系统 以 及 数据 归档 、 恢 复 及 净化 系统 等 部 分 。 


10.2.3 ”数据 仓库 技术 
尽管 在 许多 情况 下 , 数据 仓库 的 创建 与 使 用 技术 并 不 比 数据 库 创建 使 用 的 技术 复杂 , 但 是 数 
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据 仓 库 的 创建 与 使 用 技术 也 有 许多 特定 要 求 。 

(1 ) 数据 管理 技术 。 数 据 管理 技术 包含 大 批量 数据 管理 技术 、 数 据 仓库 索引 与 数据 监视 技 
术 、 元 数据 管理 技术 、 数 据 压缩 技术 和 复合 键 码 技术 。 

(2 ) 数据 存储 技术 。 数 据 的 存储 技术 包含 多 介质 存储 设备 的 管理 技术 、 数 据 存储 的 挖掘 技 
术 、 数 据 的 并 行 存储 与 管理 技术 、 可 变 长 技术 和 锁 切 换 技术 。 

(3 ) 数据 仓库 接口 技术 。 数 据 仓 库 的 接口 技术 包含 多 技术 接口 技术 、 语 言 接口 技术 和 数据 
的 高 效率 加 载 技 术 。 


10.2.4 数据 仓库 设计 


对 于 一 个 企业 或 组 织 而 言 , 建立 数据 仓库 是 一 个 巨大 和 长 期 的 工作 。 由 于 公司 战略 可 能 会 在 
数据 仓库 开发 期 间 发 生 改变 , 从 而 对 公司 而 言 存在 大 量 的 未 知 因素 和 风险 , 所 以 在 数据 仓库 开发 
阶段 选择 适当 的 方法 可 以 降低 这 些 风 险 和 未 知 因素 。 

建造 数据 仓库 有 两 个 主要 部 分 , 即 与 操作 系统 接口 的 设计 和 数据 仓库 本 身 的 设计 。 数据 仓库 
系统 设计 的 目标 是 建立 一 个 全 局 一 致 的 数据 环境 , 以 此 作为 企业 决策 支持 系统 的 基础 。 它 的 开发 
是 从 最 基本 的 主题 开始 ,不断 地 发 展 新 的 主题 ,完善 已 有 的 主题 , 最终 建立 起 一 个 面向 主题 的 分 
析 型 数据 环境 ， 另 外 , 在 这 个 过 程 中 , 用户 的 需求 是 模糊 的 ， 这 就 决定 了 不 可 能 从 用 户 需 求 出 发 
进行 数据 仓库 的 设计 。 数 据 仓库 设计 的 这 些 特点 就 决定 了 在 设计 过 程 中 要 采用 “数据 驱动 ”的 系 
统 设计 方法 。 所 谓 的 “数据 驱动 ”设计 方法 是 以 数据 为 基础 ， 进 行 从 面向 应 用 到 面向 分 析 需 求 的 
转变 ， 并 逐步 提高 决策 效果 的 方法 。 

数据 仓库 系统 开发 时 ， 有 两 种 基本 的 策略 可 供 选 择 : 第 一 种 是 自 项 向 下 的 策略 。 先 建立 一 个 
全 局 数据 仓库 的 结构 , 然后 在 此 基础 上 建立 部 门 的 数据 集 市 和 个 人 的 数据 仓库 。 这 是 一 种 系统 解 
决 方案 。 第 二 种 是 自 底 向 上 的 策略 。 就 是 数据 集 市 方法 ， 它 可 以 从 最 关心 的 部 分 开始 ， 先 以 最 少 
的 投资 ， 完 成 企业 当前 的 需求 ， 然 后 再 不 断 放弃 、 完 善 。 


10.2.5 ”数据 仓库 设计 步骤 


在 数据 仓库 设计 过 程 中 , 需要 建立 三 个 层次 的 模型 : 概念 模型 ; @ 逻 辑 模型 ; @ 物 理 模型 。 
这 三 个 模型 与 现实 的 变化 联系 ， 可 用 图 10.6 表示 。 



































现实 世界 现实 世界 逻辑 世界 计算 机 世界 
身高 > 特性 > 属性 > 列 (字段 、 数 据 项 ) 
张 三 一 一 一 个体 一 一 一 > 实体 一 一 一 > 记录 
客户 > 整体 区 同 质 总 体 交 表 文件 
客户 与 产品 > 整体 间 联 系 > 异 质 同体 区 数据 库 





图 10.6 现实 与 不 同 模型 的 变化 联系 
1. 概念 模型 的 设计 


概念 模型 是 联系 主观 与 客观 的 桥梁 , 它 是 一 个 为 一 定 的 目标 设计 系统 、 收 集 信息 而 服务 的 概 
念 性 工具 。 在 计算 机 系统 设计 中 , 概念 模型 的 设计 就 是 创建 一 种 基于 对 象 、 代 表 实 际 业务 的 模型 。 
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由 于 概念 模型 是 面向 现实 的 ， 所 以 在 认识 和 设计 系统 时 ， 概 念 模型 应 易于 修改 而 且 适 应 性 强 。 
2. 逻辑 模型 的 设计 


数据 仓库 的 逻辑 模型 应 该 与 数据 仓库 物理 实现 时 所 使 用 的 数据 库 有 关 , 它 主要 是 关系 模型 。 

在 进行 数据 仓库 的 逻辑 设计 中 ,一 般 需要 完成 分 析 主 题 域 、 确 定 装载 到 数据 仓库 的 主题 , 确 
定 粒度 层次 划分 ， 确 定数 据 分 割 策略 、 关 系 模式 的 定义 和 记录 系统 定义 、 确 定数 据 抽取 模型 等 。 
逻辑 模型 的 最 终 设计 成 果 应 该 包含 每 个 主题 逻辑 定义 ， 且 将 相关 内 容 记 录 在 数据 仓库 的 元 数据 
中 ， 其 中 包括 粒度 划分 、 数 据 分 割 策略 、 表 划分 和 数据 来 源 等 。 


3. 物理 模型 的 设计 


数据 仓库 的 物理 模型 就 是 逻辑 模型 在 数据 仓库 中 的 实现 模式 。 其 中 包括 逻辑 模型 中 各 种 实体 
表 的 具体 化 。 例 如 表 的 数据 结构 类 型 、 索 引 策 略 、 数 据 存放 位 置 以 及 数据 存储 分 配 等 。 在 进行 物 
理 模型 设计 实现 时 ， 所 考虑 的 因素 有 IO 存 取 时 间 、 空 间 利用 率 和 维护 的 代价 。 

为 了 确定 数据 仓库 的 物理 模型 , 设计 人 员 必 须要 做 到 以 下 几 方 面 的 工作 : 首先 要 全 面 了 解 所 
选用 的 数据 库 管理 系统 ,特别 是 存储 结构 和 存 取 方 法 ; 其 次 ， 了 解数 据 环境 、 数 据 的 使 用 率 、 使 
用 方式 、 数 据 规模 以 及 响应 时 间 要 求 等 , 这 些 都 是 对 时 间 和 空间 效率 进行 平衡 和 优化 的 重要 依据 ; 
最 后 , 还 要 了 解 外 部 存储 设备 的 特征 。 只 有 这 样 才 能 在 数据 的 存储 需求 与 外 部 存储 设备 条 件 中 获 






































得 平衡 。 
10.3 ”数据 仓库 的 开发 应 用 

数据 仓库 的 开发 可 分 三 个 阶段 : 数据 仓库 
规划 分 析 阶 段 、 数 据 仓库 设计 实施 阶段 以 及 数 第 的 也 入: 全 > 
据 仓 库 的 应 用 。 这 三 个 阶段 不 是 简单 的 循环 往 


复 , 而 是 不 断 完善 、 提 高 的 过 程 。 一 方面 通过 做 a 规划 分 析 阶 段 
这 三 个 阶段 的 数据 仓库 开发 , 积累 了 数据 仓库 江 一 2 
的 开发 应 用 经 验 , 可 以 转向 其 他 主题 的 数据 仓 笋 站 仓 队 i ) 六 

库 应 用 ; 另 一 方面 通过 数据 对 原始 数据 仓库 的 i 
开发 应 用 经 验 积累 , 可 对 原始 数据 仓库 提出 改 
进 的 建议 , 使 原始 数据 仓库 通过 改进 得 到 提 


高 ， 如 图 10.7 所 示 。 wr 
数据 仓库 规划 分 析 阶 段 的 工作 内 容 主要 Se 


包括 : 调查 、 分 析 数 据 仓库 环境 ,完成 数据 仓 
库 的 开发 规划 ， 确 定数 据 仓库 开发 需求 ; 建立 。 。 图 15 7 丈 据 全 库 生 使 膨 期 开发 应 用 全 寺 各 
包括 实体 关系 图 、 星 型 模式 、 雪 花形 式 、 元 数据 模型 以 及 数据 源 分 析 的 主题 区 数据 模型 ,并 且 根 
据 主题 区 模型 开发 模型 数据 仓库 逻辑 模 型。 

数据 仓库 设计 实施 阶段 的 工作 内 容 主要 包括 :根据 数据 仓库 的 逻辑 模型 设计 数据 仓库 体系 ; 
设计 数据 仓库 与 物理 数据 库 ; 用 物理 数据 库 元 数据 填充 面向 最 终 用 户 的 元 数据 库 ; 为 数据 仓库 中 
每 个 目标 字段 确定 它 在 业务 系统 或 外 部 数据 源 中 数据 来 源 ; 开发 或 购买 用 于 抽取 、 变 换 和 合并 数 








使 用 维护 阶段 
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据 等 中 间 件 的 程序 ;将 数据 从 现 有 系统 中 到 仓库 中 ,填充 数据 仓库 且 测试 。 

数据 仓库 的 使 用 维护 阶段 的 工作 内 容 主要 包括 : 数据 仓库 的 投入 使 用 , 且 在 使 用 中 改进 、 维 
护 数据 仓库 ;对 数据 仓库 进行 评价 ， 为 下 一 个 循环 开发 提供 依据 。 

下 面 以 某 个 超市 的 数据 仓库 设计 为 例 ， 简 要 地 说 明 数据 仓库 设计 开发 的 一 般 过 程 。 

日 趋 激 烈 的 市 场 竞争 要 求 超市 经 营 者 更 加 准确 地 了 解 超市 经 营 状况 , 跟踪 市 场 趋势 , 更 加 合 
理 地 制定 商品 的 采购 与 销售 策略 。 由 于 超市 业务 处 理 的 需要 , 一 般 在 人 事 、 采 购 、 库 存 、 销 售 等 
部 门 有 着 人 事 、 采 购 、 库 存 、 销 售 的 数据 库 , 分别 处理 各 自 的 业务 。 但 是 各 个 部 门 的 数据 库 都 是 
按 各 部 门 的 业务 需要 加 以 组 织 的 , 缺乏 全 局 性 , 超市 管理 层 决定 要 在 这 些 数据 库 的 基础 上 建立 一 
个 数据 仓库 。 


10.3.1 ”数据 仓库 概念 模型 设计 与 开发 
概念 模型 的 设计 可 以 分 为 用 户 的 需求 调查 、 模 型 定义 、 模 型 分 析 和 模型 设计 几 个 阶段 。 
1. 概念 模型 的 需求 调查 


当 用 户 需 要 开发 一 个 数据 仓库 时 , 往往 提出 一 个 数据 仓库 开发 的 任务 书 。 在 任务 书 中 对 组 织 
的 背景 和 组 织 所 在 行业 的 发 展 进行 必要 的 论述 ， 说 明 组 织 目 前 所 要 完成 的 业务 功能 以 及 业务 范 
围 , 量 就 行业 的 发 展 状态 , 提出 组 织 的 战略 发 展 目标 ,然后 ,就 实现 这 一 发 展 战略 需要 数据 仓库 
在 决策 方面 提供 哪些 支持 。 

开发 的 超市 数据 仓库 任务 书 的 内 容 有 : 数据 仓库 用 于 支持 对 存在 激烈 市 场 竞争 的 零售 行业 分 
析 ， 数 据 仓库 能 向 管理 部 门 提供 关于 客户 、 客 户 购买 行为 ， 以 及 国内 外 零售 行业 的 市 场 信息 。 

为 完成 这 一 数据 仓库 的 开发 任务 , 数据 仓库 开发 者 首先 要 向 有 关 人 员 和 部 门 进行 调查 , 描绘 
关于 这 一 数据 仓库 以 及 数据 仓库 所 在 环境 的 完整 画面 。 调 查 范围 需要 从 组 织 中 负责 数据 仓库 开发 
的 项 目 负责 人 开始 ,而 后 扩展 到 知识 用 户 、 信 息 用 户 和 信息 管理 人 员 。 调查 时 要 注意 不 应 向 调查 
人 员 询 问 数 据 仓库 应 该 具有 什么 功能 , 而 是 从 管理 决策 工作 中 关于 数据 的 需求 问题 , 用 户 基本 情 
况 ， 用 户 使 用 信息 的 情况 、 对 数据 仓库 的 看 法 和 评价 等 角度 进行 调查 。 

用 户 的 信息 要 求 可 以 从 项 目 负责 人 的 调查 中 得 到 , 在 此 过 程 中 需 了 解 : 用 户 对 系统 的 希望 和 
要 求 ; 哪些 事务 或 业务 与 任务 说 明 书 中 的 业务 需要 相关 , 与 这 些 事务 或 业务 有 关 的 数据 保存 在 哪 
些 系统 中 ? 管理 人 员 在 进行 决策 分 析 时 , 一 般 需要 多 长 时 间 的 数据 ? 现在 组 织 中 使 用 的 业务 处 理 
系统 是 否 能 够 提供 这 些 决策 分 析 数 据 等 内 容 。 在 与 用 户 有 关 的 调查 中 则 需要 了 解 : 用 户 是 哪些 人 ， 
他 们 应 该 怎样 与 数据 仓库 发 生 关系 ? 这 些 用 户 是 否 拥有 自己 的 计算 机 系统 , 在 这 些 系 统 中 配置 了 
哪些 信息 处 理 系统 , 这 些 系统 的 环境 如 何 ? 用 户 在 工作 中 是 否 使 用 了 数据 分 析 工 具 , 他 们 在 分 析 
工作 中 经 常 做 哪些 方面 的 分 析 , 是 市 场 的 , 还 是 金融 的 ? 用 户 在 使 用 分 析 报告 时 喜欢 静态 文本 方 
式 的， 还 是 动态 在 线 的 ? 

在 对 知识 用 户 与 信息 用 户 的 调查 中 需要 了 解 关 于 信息 的 来 源 : 用 户 在 组 织 中 承担 什么 工作 ， 
在 工作 中 所 需要 的 信息 , 信息 中 是 否 有 战略 信息 , 这 些 信息 的 来 源 是 哪里 ?这 些 信息 采用 哪些 工 
具 处 理 , 在 所 在 的 部 门 中 使 用 哪些 信息 系统 , 这 些 系统 提供 哪些 分 析 信息 , 以 及 提供 信息 的 方式 。 
还 要 了 解 关 于 用 户 的 一 些 基本 情况 ， 如 用 户 的 计算 机 系统 环境 、 用 户 的 知识 状况 等 。 
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2. 概念 模型 的 定义 


在 概念 模型 的 定义 过 程 中 需要 确定 系统 的 范围 以 及 所 涉及 的 对 象 。 为 实现 超市 数据 仓库 概念 
模型 的 定义 ， 首 先 需要 分 析 用 户 的 决策 需求 ; 其 次 , 分 析 为 实现 这 些 决 策 分 析 , 数据 仓库 应 该 提 
供 哪些 信息 ? 具体 到 超市 数据 仓库 而 言 ， 它 的 决策 分 析 有 : 客户 的 购买 趋势 、 商 品 供应 市 场 的 变 
化 趋势 , 供应 商 和 客户 的 信用 等 级 等 情况 。 为 完成 这 些 决策 分 析 , 需要 商品 销售 量 、 商 品 采购 量 、 
商品 库存 量 、 客 户 情况 和 供应 商 等 这 样 一 些 数据 。 

为 了 对 数据 进行 完整 的 、 规 范 的 分 析 , 可 以 采用 用 户 信息 需求 表 来 描述 用 户 的 信息 需求 状况 。 
在 需求 表 中 列 出 概述 模型 定义 中 所 确定 的 数据 仓库 用 户 决策 分 析 问 题 以 及 所 需要 的 信息 。 在 列 出 
所 有 信息 的 同时 ， 还 要 明确 这 些 信息 的 详 略 程度 。 表 10.2 即 为 用 户 信息 需求 表 ， 表 中 数字 为 对 
应 概念 的 值 。 














表 10.2 用 户 信息 需求 表 
决策 分 析 问 题 客户 购买 商品 趋势 分 析 
天 信 8 表 关 | 日 ET 
1 ED 
om) [my | wm) | | 
| 
EE 
[| “| | 


概念 模型 的 定义 不 仅 需 要 构建 一 个 企业 数据 模型 ER 图 ( ERD )， 即 描述 组 织 业务 的 蓝图 ， 
包括 整个 组 织 系统 中 各 个 部 门 的 业务 处 理 及 
其 业务 处 理 数据 ， 如 图 10.8 所 示 ; 还 要 了 解 jk 
ERD 模型 中 每 一 个 实体 的 诞生 与 消亡 事件 。 应 付 几 
如 在 销售 业务 处 理 系统 中 ， 某 个 客户 第 一 次 。 ”成 本 由 
购买 产品 ,系统 会 将 一 些 相关 信息 记录 在 案 ， 
但 是 某 个 已 经 记录 在 案 的 客户 ， 如 果 现 年 没 
有 订购 产品 ， 就 要 在 业务 系统 中 将 其 置 于 售 ee 
顿 状态 ;如果 某 个 客户 三 年 没有 订购 产品 ， 
就 要 从 其 业务 系统 中 删除 ,但 在 数据 仓库 中 ， yy 一 > 
该 客户 的 信息 必须 长 期 保留 ， 因 为 管理 人 员 员工 技能 情况 
可 能 需要 了 解 五 年 中 的 客户 信息 ， 数 据 仓库 员工 薪酬 表 
就 需要 提供 销售 情况 的 五 年 相关 信息 ， 如 客 
户 的 第 一 次 订购 时 间 、 最 后 一 次 订购 时 间 、 
目前 的 状况 等 。 为 获取 这 些 信息 ， 在 数据 仓库 的 高 层 模型 中 就 需要 使 用 CRUD 工具 反映 实体 的 
生成 、 引 用 、 更 新 和 删除 情况 。CRUD 是 指 创建 ( Create )、 读 取 ( Read )、 更 新 ( Update )、 删 除 
(Delete ) 一 个 或 多 个 数据 项 来 互相 连接 每 个 应 用 程序 。 表 10.3 为 实体 与 功能 关系 CRUD 矩阵。 

























































































图 10.8 企业 数据 模型 (ER 图 ) 
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表 10.3 ”实体 与 功能 关系 CRUD 矩阵 














用 户 供 货 商 
订单 输入 CRUD RU 
订单 处 理 
产品 管理 及 及 
预算 系统 及 及 
财务 计算 RU R 
制造 控制 及 及 
后 勤 及 RU 
生产 控制 








数据 仓库 分 析 人 员 在 数据 仓库 的 概念 模型 定义 中 还 要 了 解 现行 业务 处 理 系统 的 数据 存储 方 
式 ， 从 中 找到 数据 仓库 的 数据 映射 源 的 物理 状况 。 因 此 , 需要 用 数据 存储 模式 表 将 所 有 的 数据 源 
存储 模式 列 出 。 根 据 此 表 , 数据 仓库 分 析 人 员 还 需要 对 每 个 数据 源 进行 分 析 : 这 些 数据 源 存储 模 
式 的 管理 者 是 否 为 数据 仓库 的 建设 提供 某 种 程度 的 支持 ?客户 /服务 器 之 间 的 连接 通过 哪 种 通信 
协议 给 予 支持 ? 数据 源 的 存储 模型 使 用 哪些 操作 语言 ? 在 了 解 这 些 情况 后 , 数据 仓库 设计 人 员 可 
将 数据 仓库 与 特定 的 业务 处 理 系统 中 的 数据 源 成 功 地 连接 在 一 起 。 表 10.4 即 为 现行 业务 处 理 系 
统 的 数据 存储 模式 表 。 











表 10.4 “现行 业务 处 理 系统 的 数据 存储 模式 表 

















oracle 其 他 存储 模式 
jw Tv | | v| 
im VvV | | |v 
产品 管理 
预算 系统 V (Excel) 
财务 计算 
制造 控制 
后 其 
生产 控制 

外 部 数据 源 

销售 代理 商 V 
市 场 调查 公司 V 








3. 概念 模型 的 分 析 
完成 数据 仓库 概念 模式 的 定义 后 , 还 要 进一步 考察 模式 的 用 户 要 求 和 系统 环境 , 分 析 数 据 仓 











库 范围 内 的 主要 对 象 , 确定 系统 的 主要 主题 域 以 及 主要 主题 域 之 间 的 联系 。 数据 仓库 设计 者 通过 
对 用 户 的 访问 , 得 到 用 户 对 数据 仓库 结构 以 及 数据 仓库 存在 环境 的 要 求 , 并 将 分 析 结 果 转 变 成 概 
念 模式 ， 提 交 给 被 访问 者 进行 确认 ， 以 保证 设计 者 对 当前 环境 的 正确 性 理解 。 

概念 模型 一 般 用 ER 图 表示 ,图 中 各 个 对 象 ( 实体 ) 间 存 在 着 相互 的 联系 ， 用 长 方 体 表示 实 
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体 ， 对 应 于 数据 仓库 中 主题 ， 椭圆 表 示 主 题 的 属性 ， 用 菱形 表示 主题 间 的 联系 。 图 10.9 为 超市 
数据 仓库 的 概念 模型 。 

















各 记号 ) | 客户 上 GiP 昌 惑 
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ES 
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图 10.9 商品 、 销 售 和 客户 的 概念 模型 
4. 概念 模型 的 设计 


图 10.9 所 示 的 概念 模型 并 不 适合 数据 仓库 的 设计 ， 在 数据 仓库 的 概念 模型 设计 中 ， 常 用 星 
型 模式 和 雪花 模型 。 图 10.10 即 为 销售 主题 的 星 型 和 雪花 模型 。 






销售 趋势 





星 型 模型 雪花 模型 
图 10.10 销售 主题 的 星 型 、 雪 花 模 型 
完成 概念 模型 设计 以 后 , 必须 编制 数据 仓库 开发 的 概念 模型 文档 , 且 对 概念 模型 进行 评价 。 
文档 包括 数据 仓库 开发 概念 模型 需求 分 析 报 告 、 概 念 模型 分 析 报 告 、 概 念 模型 和 概念 模型 的 评 
审 报告 。 概 念 模型 的 评审 就 是 确定 概念 模型 是 否 完整 、 准 确 地 描述 了 用 户 的 决策 分 析 环 境 ， 使 
得 数据 仓库 开发 人 员 可 以 找到 一 个 比较 理想 的 数据 仓库 解决 方案 , 并 且 能 够 进一步 获得 用 户 的 


10.3.2 ”数据 仓库 的 逻辑 模型 设计 


在 数据 仓库 设计 开发 中 无 法 直接 依靠 概念 模型 实现 数据 仓库 的 物理 模型 , 还 要 依靠 逻辑 模型 
作为 概念 模型 到 物理 模型 转换 的 桥梁 。 

在 进行 数据 仓库 的 逻辑 模型 设计 时 ,一 般 需要 完成 分 析 主 题 域 ,确定 装载 到 数据 仓库 的 主题 ， 
确定 粒度 层次 划分 , 确定 数据 分 割 策略 , 关系 模式 的 定义 和 记录 系统 定义 , 确定 数据 抽取 模型 等 。 


1. 分 析 主题 域 
数据 仓库 的 设计 方法 是 一 个 循环 的 过 程 , 在 进行 数据 仓库 的 设计 时 一 般 是 一 次 先 建立 一 个 主 
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题 或 几 个 主题 。 在 超市 数据 仓库 的 概念 模型 设计 时 ,首先 确定 了 它 的 三 个 基本 主题 域 : 商品 、 销 
售 与 客户 。 分 析 后 可 以 认为 “销售 ”主题 既是 一 个 超市 的 最 基本 的 业务 对 象 ， 又 是 进行 决策 分 析 
的 最 主要 领域 ， 因 而 可 以 把 “销售 ”主题 域 定义 为 首先 建立 的 主题 。 通 过 “销售 ”主题 的 建立 ， 

超市 经 营 者 可 对 整个 超市 的 经 营 情况 有 较 全 面 的 了 解 , 尽快 地 满足 超市 经 营 者 建立 数据 仓库 的 最 
初 要 求 。 


当 数据 仓库 中 的 主题 定义 后 , 也 就 基本 构成 了 逻辑 模型 。 此 时 ， 需 要 在 主题 的 逻辑 关系 模式 
中 包含 所 有 的 属性 以 及 与 系统 相关 的 行为 。 表 10.5 即 为 超市 数据 库 三 个 主题 的 属性 描述 。 
表 10.5 ”主题 的 详细 描述 

属 性 组 

商品 号 、 商 品名 、 类 型 、 颜 色 等 
商品 号 、 供 应 商号 、 供 应 价 、 供 应 日 期 、 供 应 量 等 
商品 号 、 

售 














主 题 名 | 公共 码 键 


商品 商品 号 








商品 库存 信和 | 





库房 号 、 库 存量 、 日 期 等 

销售 “| 销售 单 号 销售 单 问 有 信息 : 销售 单 号 、 销 售 地 址 等 

销售 信息 : 客户 号 、 商 品 号 、 销 售 价 、 销 售 量 、 销 售 时间 等 

客户 客户 号 客户 固有 信息 : 客户 号 、 客 户 名 、 性 别 、 年 龄 、 文 化 程度 、 住 址 、 电 话 等 
客户 经 济 信息 : 客户 号 、 月 收入 、 家 庭 总 收入 等 













2. 粒度 层次 的 划分 


在 数据 仓库 的 逻辑 设计 中 还 要 解决 的 一 个 重要 问题 是 决定 数据 仓库 粒度 的 层次 划分 , 粒度 层 
次 的 划分 适当 与 否 直接 影响 到 数据 仓库 中 要 存储 的 数据 量 和 查询 方法 。 
划分 数据 粒度 , 先 要 估算 数据 仓库 所 需要 占用 的 存储 空间 ,然后 再 依据 存储 空间 确定 粒度 划分 。 
们 全 放下 请 全 辐 。 可 以 从 需要 建立 的 表 数 目 出 发 , 通过 估算 每 个 表 的 大 致 行 数 ( 一 般 为 
最 多 和 最 少 的 行 数 ) 及 每 行 占用 空间 的 最 大 字 节 和 最 小 字 节 数 , 得 到 表 的 存储 空间 。 因 为 数据 仓库 
的 数据 存 取 是 通过 存 取 索 引 来 实现 的 , 而 索引 是 对 应 表 中 的 行 来 组 织 的 , 因此 通过 表 的 行 数 就 可 得 
到 数据 仓库 的 数据 存 取 索 引 的 大 小 即 索引 空间 。 表 的 存储 空间 与 相应 的 索引 空间 之 和 就 为 数据 仓库 
所 需要 占用 的 存储 空间 。 得 到 数据 仓库 的 存储 空间 就 可 按 表 10.6 所 示 进 行 数据 粒度 的 划分 。 
表 10.6 ”数据 仓库 的 存储 空间 与 数据 粒度 划分 策略 对 照 表 
































五 年 数据 
数据 量 〈 行 数 ) 粒度 划分 策略 
10 000 000 双重 粒度 并 且 和 仔细 设计 20 000 000 双重 粒度 并 是 和 仔细 设计 
1 000 000 双重 粒度 10 000 000 双重 粒度 
100 000 仔细 设计 1 000 000 仔细 设计 
10 000 不 考虑 100 000 不 考虑 
在 数据 仓库 中 确定 粒度 时 ,需要 考虑 : 要 接受 的 分 析 类 型 、 可 接受 的 数据 是 最 低 粒 度 、 能 够 
存储 的 数据 量 。 


计划 在 数据 仓库 中 进行 的 分 析 类 型 将 直接 影响 数据 仓库 的 粒度 划分 。 将 粒度 的 层次 定义 越 
高 ,就 越 不 能 在 该 仓库 中 进行 更 细致 的 分 析 。 例 如 ， 当 粒度 层次 定义 为 月 份 时 ,就 不 可 能 利用 数 
据 仓 库 进 行 按 日 汇总 的 信息 分 析 。 
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数据 仓库 通常 在 同一 模式 中 使 用 多 重 粒度 。 数据 仓库 中 , 可 以 有 今年 创建 的 数据 粒度 和 以 前 
创建 的 数据 粒度 。 例 如 可 用 低 粒 度数 据 保存 近期 的 财务 数据 和 汇总 数据 , 对 时 间 较 远 的 财务 数据 
只 保留 粒度 较 大 的 汇总 数据 , 这 样 既 可 以 对 财务 近况 进行 细节 分 析 , 又 可 以 利用 汇总 数据 对 财务 
趋势 进行 分 析 ， 这 里 的 数据 粒度 划分 策略 就 需要 双重 数据 粒度 。 

定义 数据 仓库 粒度 的 另外 一 个 要 素 , 是 数据 仓库 可 以 使 用 多 种 存储 介质 的 空间 量 , 如 果 存 储 
资源 有 一 定 的 限制 ， 就 只 能 采用 较 高 粒度 的 数据 粒度 划分 策略 。 

选择 一 个 合适 的 粒度 是 数据 仓库 设计 过 程 中 所 需 解决 的 一 个 复杂 决定 , 因为 粒度 的 确定 实质 
上 是 业务 决策 分 析 、 硬 件 、 软 件 和 数据 仓库 使 用 方法 的 一 个 折 中 。 在 确定 数据 仓库 粒度 时 ， 可 以 
采用 多 各 方法 做 到 既 能 满足 用 户 决策 分 析 的 需要 , 又 能 减少 数据 仓库 的 数据 量 。 如 果 主 题 分 析 的 
时 间 范 围 较 小 , 可 以 保持 最 小 的 数据 粒度 ,但 是 只 保持 较 小 时 间 的 细节 数据 。 例 如 在 分 析 销售 趋 
势 主 题 中 ,分 析 人 员 只 利用 回溯 一 年 的 数据 进行 比较 ， 那 保存 销售 主题 的 数据 只 需要 15 个 月 的 
数据 就 足够 解决 问题 了 ， 而 不 必 保存 大 量 的 、 时 间 过 长 的 数据 。 


3. 确定 数据 分 割 策略 


数据 的 分 割 是 指 把 逻辑 上 整体 的 数据 分 割 成 较 小 的 、 可 以 独立 管理 的 物理 单元 进行 存储 的 方 
法 。 使 用 数据 分 割 便于 数据 的 重 构 、 重 组 和 恢复 ， 以 提高 创建 索引 和 顺序 扫描 的 效率 。 
对 于 超市 数据 仓库 而 言 , 可 以 按时 间 对 数据 进行 分 割 ,即将 在 同一 时 间 内 的 数据 组 织 在 一 起 。 
如 由 于 超市 的 管理 者 经 常 关心 的 问题 是 商品 在 某 个 季节 的 销售 情况 , 从 而 将 超市 的 销售 数据 按 季 
节 进 行 分 割 ， 可 以 大 大 减少 数据 检索 的 范围 ， 减 少 物理 IO 次 数 ， 提 高 系统 的 性 能 。 
在 确定 数据 分 割 策略 时 一 般 要 考虑 以 下 几 个 方面 的 因素 。 
。 ”数据 量 。 数据 量 的 大 小 是 决定 是 否 进行 数据 分 割 和 如 何 分 制 的 主要 因素 , 如 果 数 据 量 较 
小 ， 可 以 不 进行 数据 分 割 ， 或 只 用 单一 标准 对 数据 进行 分 割 。 
。 ”数据 分 析 处 理 的 对 象 。 数据 分 制 与 数据 处 理 的 对 象 是 紧密 联系 的 , 不 同 主题 内 数据 分 制 
的 标准 不 同 。 如 “商品 ”主题 内 对 于 数据 的 分 类 更 多 地 采用 商品 大 类 、 商 品 小 类 和 时 间 
标准 ， 而 在 “供应 商 ” 主 题 内 数据 分 制 的 标准 则 更 多 地 用 地 理 位 置 和 时 间 进 行 分 割 。 
。 ”粒度 分 割 的 策略 。 进 行 数据 分 割 设 计时 ， 更 重要 的 是 将 数据 分 割 标准 与 粒度 层次 的 划分 策 
略 统一 起 来 。 例 如 对 “商品 ”主题 销售 数据 可 以 按时 间 和 商品 类 别 的 组 合 标准 进行 分 割 。 


4. 关系 模型 定义 


数据 仓库 的 概念 模型 的 物理 实现 必然 是 以 各 种 表 来 完成 的 , 这 些 表 可 由 指标 实体 转换 、 维 实 
体 、 详 细 类 别 实体 来 完成 。 例 如 对 图 10.11 所 示 的 金融 企业 客户 主题 逻辑 模型 可 以 设计 出 不 同 的 

客户 的 事实 表 模型 有 : 客户 事实 表 ( 基本 情况 表 、 变 动情 况 表 )、 客 户 贷款 事实 表 ( 房屋 贷 
款 情况 表 、 汽 车 贷款 情况 表 )、 客 户 存款 事实 表 ( 客户 存款 表 1、 客 户 存款 表 2、…… )、 客 户 担 
保 事实 表 ( 客户 担保 事实 表 1、 客 户 担保 事实 表 2、…… ) 

客户 维度 表 模型 有 : 时 间 维 度 表 ( 年 、 月 、 日 )、 地 点 维度 表 ( 省 、 市 、 县 、 街 道 )、 贷 款 维 
度 表 ( 抵押 贷款 、 非 抵押 贷款 ) 等 。 
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贷款 房屋 贷款 
账号 抵押 贷款 显 号 
信用 额度 上 [下 名 贷款 ] 地 址 
利息 委托 人 
评估 


























街道 
邮政 编码 
担保 信用 卡 
账号 非 抵押 贷款 账号 
页 任 人 信用 卡 限额 
种 类 信用 卡 








签字 


图 10.11 金融 企业 客户 主题 逻辑 模型 
事实 表 中 一 般 包 含 由 主键 和 外 键 所 组 成 的 键 部 分 及 与 用 户 希望 在 数据 仓库 中 所 了 解 的 数值 指 
标 ; 维度 表 则 含有 商业 项 目的 文字 描述 , 维度 的 设计 提供 了 维度 属性 的 定义 。 在 观察 维度 表 中 的 维 
度 对 象 时 , 其 属性 可 以 看 作 描 述 该 项 目的 各 种 信息 。 如 对 产品 信息 的 维度 可 以 用 各 种 颜色 描述 。 维 
属性 在 分 析 数 据 仓 库 中 的 数据 时 非常 有 用 ， 从 某 种 角度 讲 ， 维 属性 就 是 用 户 获 取 数据 的 窗口 。 


5. 数据 仓库 的 实体 定义 


在 设计 逻辑 模型 时 , 不 仅 必 须 对 逻辑 模型 中 的 每 个 实体 进行 具体 的 定义 ,而 且 要 进一步 确定 
实体 列 中 的 主键 列 (也 即 查 询 词 )， 实 体 之 间 关 系 的 外 部 键 列 ， 实 体 物理 存储 的 一 些 特性 。 

主键 列 是 用 于 识别 实体 实例 的 唯一 识别 数据 表 行 的 列 , 通常 由 一 个 列 或 多 个 列 组 成 , 有 时 还 
需要 确定 一 些 候选 键 列 。 如 可 以 将 CustomerNumber 作为 客户 实体 的 主键 列 ， 以 CustomerName 
作为 候选 键 列 ， 以 更 好 地 识别 每 个 客户 实体 。 

为 在 数据 仓库 的 物理 模型 中 表示 实体 之 间 的 联系 , 必须 确定 实体 的 外 部 键 列 , 它 是 存在 于 某 
个 实体 中 的 某 一 列 或 某 一 组 列 , 它们 的 值 在 其 他 实体 中 作为 主键 处 理 。 例 如 在 订单 细节 实体 中 客 
户 编号 列 ( CustomerNumber ) 用 于 描述 签订 订单 的 客户 ， 而 CustomerNumber 则 是 客户 实体 中 的 
主键 ， 此 时 CustomerNumber 就 成 为 订单 细节 实体 的 外 部 键 列 ， 用 此 键 列 可 以 将 其 与 客户 实体 关 
联 起 来 。 


6. 数据 抽取 模型 


数据 仓库 的 抽取 模型 由 数据 抽取 处 理 过 程 、 数 据 源 表 、 数 据 源 抽取 过 滤 条 件 与 连接 表 、 数 据 
抽取 过 程 的 排序 与 聚集 表 、 数 据 抽取 的 目标 与 源 列 对 应 关系 表 等 组 成 。 

数据 仓库 的 抽取 处 理 是 传统 的 数据 处 理 过 程 , 其 输入 是 数据 仓库 数据 源 的 各 种 业务 操作 处 理 
系统 的 数据 库 ， 输 出 部 分 是 数据 仓库 。 

为 实现 数据 仓库 的 正确 数据 抽取 还 要 利用 数据 抽取 规则 确定 从 哪些 数据 源 中 抽取 哪些 数据 ， 
这 些 数据 基于 什么 样 的 数据 平台 ， 即 数据 源 抽取 对 象 。 
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在 数据 的 抽取 分 析 中 还 需要 分 析 所 抽取 的 数据 应 该 满足 哪些 条 件 , 这 些 条 件 可 能 是 一 些 复合 
条 件 ， 而 且 可 能 来 自 不 同 的 表 。 表 10.7 即 为 数据 源 抽取 规则 表 。 
表 10.7 数据 源 抽取 规则 表 








表 列 名 | ”过 滤 与 连接 条 件 备 注 
aal 过 50000 AND 采购 商品 数量 小 于 50000 
aal > 采购 商品 数量 大 于 500 
aal 天 商品 前 两 位 非 'AB' 











将 数据 从 数据 源 抽取 到 数据 准备 区 后 , 还 需要 对 所 抽取 的 数据 进行 各 种 清理 工作 , 这 些 数据 
的 清理 内 容 必 须 在 逻辑 模型 设计 过 程 中 确定 下 来 。 数据 的 清理 内 容 可 以 包含 数据 类 型 的 转换 , 例 
如 将 整 型 数据 转变 为 实数 类 型 , 或 将 数据 的 日 历 格式 进行 统一 , 或 将 数据 值 中 按照 粒度 模型 进行 
汇总 、 聚 集 处 理 ， 如 可 以 对 数据 进行 按 一 定 的 规则 排序 及 分 组 。 

当 完 成 数据 的 排序 与 分 组 之 后 , 就 可 以 将 数据 从 数据 准备 区 加 载 到 数据 仓库 中 , 即将 数据 源 
加 载 到 数据 仓库 中 的 相应 目标 数据 列 上 。 

在 完成 数据 仓库 的 逻辑 设计 后 , 应 该 将 逻辑 模型 设计 方案 整理 成 文档 , 并 且 组 织 有 关 人 员 对 
其 进行 评审 。 评 审 主要 集中 在 主题 域 是 否 可 以 正确 地 反映 用 户 的 决策 分 析 需 求 。 


10.3.3 ”数据 仓库 物理 模型 的 设计 


数据 仓库 的 物理 模型 是 逻辑 模型 在 数据 仓库 中 的 实现 模式 , 其 中 包括 逻辑 模型 中 各 种 实体 表 
的 具体 化 ， 例 如 表 的 数据 结构 类 型 、 索 引 策略 、 数 据 存 入 位 置 以 及 数据 存储 分 配 等 。 


1. 数据 仓库 设计 的 规范 


由 于 在 数据 仓库 中 包括 多 种 表 、 列 与 域 等 ， 为 保证 数据 仓库 的 设计 、 实 施 和 管理 保持 稳定 ， 
不 产生 混乱 ， 需 要 对 物理 数据 模型 中 的 实体 、 表 、 列 等 进行 规范 化 处 理 。 规 范 化 的 内 容 主要 有 完 
整 清晰 的 数据 定义 、 合 适 的 数据 格式 等 。 

完整 清晰 的 数据 定义 能 使 数据 仓库 开发 人 员 和 用 户 很 清晰 地 了 解 所 定义 的 数据 , 在 尽 可 能 的 
情况 下 采用 完整 的 定义 , 或 者 使 用 一 些 常用 的 缩写 方式 , 例如 客户 编号 可 以 使 用 CustomerNumber 
或 CusNo。 对 于 数据 定义 的 格式 必须 大 小 一 致 , 为 提高 数据 定义 的 可 读 性 可 以 采用 大 小 写 混合 方 
式 , 在 使 用 比较 长 的 字符 描述 数据 定义 时 , 可 以 采用 适当 的 下 画 线 或 连 字符 来 提高 数据 定义 的 可 
读 性 。 


2. 确定 数据 结构 的 类 型 


在 数据 仓库 的 结构 中 , 可 能 包含 各 种 数据 类 型 的 任意 组 合 : 细节 数据 、 概 括 数 据 、 外 部 数据 、 
多 维 数据 、 数 据 子 集 、 专 门 数据 缓存 、 复 制 数据 和 存档 数据 。 数 据 仓库 的 设计 人 员 必 须 确定 符合 
设计 目标 的 数据 结构 类 型 。 图 10.12 列 出 了 各 种 数据 类 型 及 其 关系 。 
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图 10.12 数据 仓库 的 数据 结构 类 型 
虽然 数据 仓库 的 基础 是 规范 化 的 数据 模型 ， 但 在 数据 仓库 中 为 了 提高 数据 仓库 的 运行 效率 ， 
需要 进行 数据 的 非 正规 化 处 理 。 例 如 可 以 将 “最 后 订货 日 期 ”和 “最 后 发 货 日 期 ”等 字段 加 入 数 
据 仓库 ， 可 以 提高 查询 效率 。 


3. 确定 索引 策略 


数据 仓库 的 数据 量 很 大 , 要 对 数据 的 存 取 路 径 进 行 仔细 的 设计 和 选择 。 由 于 数据 仓库 的 数据 
一 般 很 少 更 新 ,因而 可 以 设计 索引 结构 来 提高 数据 存 取 效 率 。 在 数据 仓库 中 , 设计 人 员 可 以 考虑 
对 各 个 存储 建立 专用 的 、 复 杂 的 索引 ， 以 获取 较 高 的 存 取 效率 。 一 般 都 按 主 关 键 词 或 大 多 数 外 部 
关键 词 建立 索引 ， 可 以 按照 索引 使 用 的 频率 ,由 高 到 低 逐 步 添 加 , 直至 某 个 索引 加 入 后 ， 使 数据 
加 载 或 重组 表 的 时 间 过 长 时 ， 就 结束 索引 的 添加 。 


4. 确定 数据 存放 位 置 


同一 个 主题 的 数据 并 不 要 求 存放 在 相同 的 介质 上 ,在 物理 设计 时 ， 常 常 根据 数据 的 重要 性 、 
使 用 频率 以 及 对 响应 时 间 的 要 求 进行 分 类 ， 且 将 不 同类 型 的 数据 分 别 存储 在 不 同 的 存储 设备 中 。 
重要 性 高 、 经 常 存 取 、 对 响应 时 间 要 求 高 的 数据 存放 在 高 速 存储 设备 上 。 

在 设计 数据 的 布局 时 要 注意 遵循 以 下 5 个 原则 。 

。 ”不 要 把 经 常 需要 连接 的 几 张 表 放 在 同一 设备 上 。 

。 ”把 要 进行 公共 连接 的 表 放 在 同一 服务 器 上 。 

。 ”如 果 几 台 服 务 器 之 间 的 连接 会 造成 严重 的 网 络 业务 量 的 问题 ， 则 要 考虑 服务 器 复制 表格 。 

。 ”考虑 把 整个 企业 共享 的 细节 数据 放 在 主机 或 其 他 集中 式 服务 器 上 。 

。 ” 别 把 表格 和 它们 的 索引 放 在 同一 设备 上 。 


5. 确定 存储 分 配 


在 数据 仓库 的 物理 模型 设计 中 , 需要 确定 不 同 数据 的 存储 分 配 。 数 据 可 集中 在 一 台 服务 器 上 ， 
也 可 以 按 工作 小 组 部 门 、 主 题 区 或 应 用 程序 分 散在 多 个 服务 器 上 。 按照 部 门 或 工作 小 组 进行 数据 
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分 区 时 ， 各 个 部 门 数 据 的 数据 结构 是 针对 每 个 部 门 具体 的 用 户 群 而 定 的 。 

在 完成 物理 模型 设计 后 ， 要 对 设计 的 物理 模型 进行 评审 ， 它 主要 涉及 所 有 的 数据 定义 语言 、 
联机 过 程 或 批 过 程 的 描述 , 已 知 的 预期 数据 使 用 情况 ,数据 量 和 事务 量 , 预计 的 数据 增长 速度 及 
物理 设计 文档 , 以 获得 物理 模型 在 满足 数据 仓库 使 用 的 灵活 性 , 性 能 、 数据 完整 性 , 系统 可 用 性 、 
数据 的 当前 性 和 用 户 的 满意 度 等 方面 的 结果 。 


10.4 ”数据 仓库 的 技术 管理 


数据 仓库 在 创建 后 , 通过 测试 就 可 以 进行 使 用 阶段 , 在 使 用 阶段 中 需要 不 断 加 强 对 数据 仓库 
的 技术 管理 。 这 些 技术 管理 工作 涉及 以 下 几 方面 。 


1. 数据 加 载 的 一 些 问题 


(1 ) 数据 准备 区 。 由 于 数据 仓库 的 数据 抽取 、 清 理 、 加 载 需要 较 长 的 工作 时 间 ， 因 此 常常 
设置 一 个 数据 准备 区 的 临时 数据 库 ， 以 用 于 这 些 操作 。 在 数据 准备 区 中 可 以 设置 数据 抽取 、 清 理 
和 加 载 的 重新 启动 机 制 , 以 避免 这 些 操作 失败 后 可 以 从 失败 处 重新 启动 而 不 必 从 头 开始 。 为 此 可 
以 将 数据 的 抽取 、 清 理 和 加 载 活动 分 成 若干 步骤 ， 且 在 进入 某 个 步骤 后 ,保留 当前 的 状况 。 

(2 ) 数据 加 载 方式 的 选择 。 数 据 加 载 的 方式 一 般 批 处 理 ， 而 且 数 据 的 加 载 一 般 选 择 在 节 假 
日 或 夜间 进行 。 

(3 ) 大 批量 数据 加 载 的 处 理 。 大 量 数据 加 载 往往 导致 数据 的 刷新 ， 这 对 数据 仓库 而 言 是 不 
容许 的 。 因 此 , 大 量 数据 的 加 载 与 刷新 活动 只 能 在 数据 仓库 刚 建立 后 的 第 一 次 数据 加 载 的 活动 中 
进行 , 以 后 的 数据 加 载 往往 需要 采用 增 量 数据 加 载 方法 。 大 批量 数据 加 载 可 以 采用 数据 复制 技术 
实现 , 它 可 以 保证 数据 加 载 过 程 中 的 完整 性 约束 , 不 会 受到 系统 失败 等 不 良 因素 的 影响 , 并 且 对 
数据 的 传送 进行 优化 处 理 。 

2. 故障 恢复 管理 

数据 仓库 一 旦 开始 运行 , 来 自 管理 方面 和 用 户 方面 不 断 进行 存 取 的 压力 也 会 增加 , 因此 需要 
制订 故障 恢复 规划 。 在 故障 恢复 规划 中 可 以 采用 的 步骤 如 下 : 

(1) 停止 包括 操作 系统 在 内 的 服务 器 ; 

(2 ) 重新 安装 和 重新 配置 操作 系统 ; 

(3 ) 重新 标定 驱动 器 ; 

(4 ) 重新 安装 和 重新 配置 关系 数据 库 系 统 、 监 控 程序 和 中 间 件 ; 

(5 ) 对 数据 重新 加 载 和 重新 索引 。 


3. 访问 控制 与 安全 管理 


为 了 保证 数据 仓库 中 数据 的 安全 , 需要 控制 对 数据 仓库 的 访问 。 可 以 采用 多 种 方法 实现 数据 
仓库 的 安全 性 。 如 对 细 齐 能力 ( 即 从 高 度 概括 的 数据 入 手 ， 不 断 访问 详细 的 数据 ) 进行 限制 , 且 
对 特定 的 概括 数据 表 和 运行 的 详细 内 容 提供 访问 控制 , 并 且 还 要 限制 对 数据 源 的 使 用 , 如 创建 临 
时 表 和 即席 表 查 询 等 。 当 一 个 用 户 离开 时 ， 净 化 程序 必须 消除 对 多 个 系统 的 访问 控制 。 
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4. 数据 增长 的 管理 


数据 仓库 存储 的 数据 量 非常 大 , 远 远大 于 运行 数据 库 的 数据 量 , 因此 需要 利用 一 些 通用 的 商 
业 和 管理 实践 ， 控 制 和 管理 数据 量 的 增加 。 

(1 ) 概括 技术 。 对 细 化 数据 进行 高 度 概括 可 以 明显 地 减少 数据 量 ， 但 为 了 提供 细 齐 数据 的 
能 力 ， 需 要 将 细 化 数据 存储 起 来 。 

(2 ) 对 细 剂 数据 的 控制 。 控 制 细 剂 的 程度 可 以 大 大 减少 数据 量 。 

(3 ) 历史 数据 的 限制 。 限 制 必须 存储 到 数据 仓库 中 的 历史 数据 的 长 度 ， 只 选择 在 现 阶段 仍 
然 有 效 或 有 借鉴 意义 的 那些 历史 数据 。 

(4 ) 数据 使 用 范围 的 限制 。 利 用 能 够 改变 收集 数据 环境 的 商业 事件 知识 限制 管理 的 数据 范 
围 。 例 如 当 两 个 公司 合并 时 ， 它 们 各 自 的 历史 数据 的 价值 可 以 是 不 同 的 。 

(5 ) 睡眠 数据 的 移出 。 在 数据 仓库 的 使 用 过 程 中 ， 可 能 会 产生 大 量 的 睡眠 数据 ， 例 如 对 决 
策 没 有 价值 的 数值 、 超 出 特定 时 间 的 历史 数据 等 。 随 着 睡眠 数据 的 增加 ,可 用 于 查询 处 理 的 实际 
可 用 数据 百分比 在 不 断 降 低 ， 最 后 导致 数据 仓库 的 使 用 效率 急剧 下 降 。 

解决 这 个 问题 的 一 种 办 法 就 是 找 出 并 移出 查询 时 很 少 用 到 的 数据 ; 或 采用 邻 线 存储 系统 的 二 
级 存储 模式 。 令 线 存储 系统 就 是 一 种 处 于 在 线 和 离线 之 间 的 存储 系统 , 这 种 系统 虽然 不 是 在 线 联 
机 状态 ,但 是 可 以 为 用 户 提供 一 个 合理 的 访问 时 间 。 


10.5 OLAP 技术 


数据 仓库 是 一 种 管理 决策 分 析 的 基础 , 若 要 有 效 地 利用 数据 仓库 的 信息 资源 , 须 有 强大 的 工 
具 对 数据 仓库 中 的 信息 进行 分 析 决 策 。 在 线 分 析 处 理 或 联机 分 析 处 理 ( On-Line Analytical 
Processing，OLAP ) 就 是 一 个 得 到 广泛 应 用 的 数据 仓库 使 用 技术 。 

OLAP 专门 用 于 支持 复杂 的 决策 分 析 , 支持 信息 管理 和 业务 管理 人 员 决策 活动 的 一 种 决策 分 
析 工 具 , 它 可 以 根据 分 析 人 员 的 要 求 , 迅速 、 灵 活 地 对 大 量 数 据 进行 复杂 的 查询 处 理 ,并 且 可 以 
直观 的 、 容 易 理 解 的 形式 将 查询 结果 提供 给 各 决策 人 员 ， 以便 能 迅速 、 准 确 地 掌握 企业 的 运营 情 
况 ， 了 解 市 场 的 需求 。 

OLAP 技术 主要 有 两 个 特点 : 一 是 在 线性 ， 表 现 为 对 用 户 请 求 的 快速 响应 和 交互 式 操作 ; 一 
是 多 维 分 析 ， 能 够 提供 对 数据 分 析 的 多 维 视图 和 分 析 ， 包 括 对 层次 维和 多 重 层次 维 的 支持 。 


10.5.1 基本 概念 


在 OLAP 中 有 维 、 维 的 层次 、 维 成 员 、 多 维 数据 集 、 数 据 单元 、 多 维 数据 集 的 度量 值 等 概念 ， 
其 中 维和 维 的 层次 概念 在 前 面 已 有 介绍 ， 在 此 主要 介绍 其 他 概念 。 


1. 维 成 员 


维 成 员 是 维 的 一 个 取 值 ， 如 果 维 分 成 了 若干 个 维 ， 那 维 成 员 就 是 不 同 维 层次 取 值 的 组 合 。 如 
“陕西 省 西安 市 新 城区 ”就 构成 了 地 理 维 的 一 个 维 成 员 。 维 成 员 并 不 一 定 要 在 维 的 每 一 个 层次 上 
都 取 值 。 实 际 上 维 成 员 的 值 并 不 是 数据 仓库 中 所 关心 的 对 象 , 一 般 是 用 此 值 去 描述 真正 关心 的 对 
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象 即 主题 在 维 的 对 象 。 例如 企业 的 销售 人 员 只 对 销售 数据 感 兴趣 , 但 是 在 观察 销售 数据 时 , 却 需 
要 以 地 理 位 置 维 、 时 间 维 或 产品 维 的 维 成 员 去 描述 销售 数据 。 
2. 多 维 数据 集 


多 维 数据 集 是 决策 支持 的 支柱 , 也 是 OLAP 的 核心 ， 有 时 也 称 立 方 体 或 超 立方 。OLAP 展现 
在 用 户 面前 的 是 一 幅 幅 多 维 视图 。 多 维 数据 集 可 以 用 一 个 多 维 数组 或 多 维 表 表示 , 对 于 二 、 三维 
数据 集 则 可 用 相应 的 可 视 化 方式 表示 。 


3. 数据 单元 


多 维 数据 集 的 取 值 为 数据 单元 。 当 在 多 维 数据 集中 的 每 个 维 都 选中 一 个 维 成 员 后 , 这 些 维 成 
员 的 组 合 就 唯一 确定 了 观察 变量 的 值 ， 即 可 表示 为 
( 维 1 维 成 员 , 维 2 维 成 员 ,-……, 维 nm 维 成 员 ) 


4. 多 维 数据 集 的 度量 值 


在 多 维 数据 集中 有 一 组 度量 值 ( 数值 )， 这 些 值 是 基于 多 维 数据 集中 事实 表 的 一 列 或 多 列 ， 
一 般 是 销售 量 、 成 本 和 费用 等 。 


10.5.2 多维 分 析 


OLAP 的 多 维 分 析 是 指 对 多 维 数据 集中 的 数据 用 切片 、 切 块 、 旋 转 等 方式 分 析 数 据 ， 使 用 户 
从 多 个 角度 、 多 个 侧面 去 观察 数据 仓库 中 的 数据 , 这 样 才 能 深入 地 了 解数 据 仓库 中 数据 所 蕴含 的 
信息 。 


1. 多 维 的 切片 


对 多 维 数据 集中 的 某 个 维 选 定 一 维 成 员 的 选择 操作 可 以 称 为 切片 。 切 片 数量 的 多 少 是 由 所 选 
定 的 那个 维 的 维 成 员 的 多 寡 所 决定 的 , 通过 切片 可 以 更 好 地 了 解 多 维 数据 集 , 并 降低 多 维 数据 集 
的 维度 。 


2. 多 维 的 切 块 


与 切片 类 似 ,如 果 在 一 个 多 维 数据 集 上 对 两 个 及 以 上 的 维 选 定 维 成 员 的 操作 称 为 切 块 。 很 明显 ， 
切 块 操作 可 以 看 成 进行 多 次 切片 操作 以 后 ， 将 每 次 切片 操作 所 得 到 的 切片 重 簿 在 一 起 而 形成 。 


3. 旋转 


多 维 数据 集 的 旋转 操作 就 是 在 对 数据 仓库 中 的 多 维 数据 集 改 变 其 显示 的 维 方向 。 这 种 旋转 操 
作 可 将 多 维 数据 集中 的 不 同 维 进行 交换 显示 ， 使 之 更 加 直观 地 显示 不 同 维 之 间 的 关系 。 


4. 其 他 OLAP 操作 
在 OLAP 的 分 析 中 ,对 多 个 事实 表 进 行 查询 ， 即 为 “ 钻 过 ”操作 ; 而 在 对 立方 体操 作 时 ， 利 
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用 数据 库 关系 ， 钻 透 立方 体 的 底层 ， 进 入 后 层 的 关系 表 的 操作 即 为 “ 钻 透 "; 通过 一 个 维 的 概念 
分 层 向 上 攀升 或 者 通过 维 归 纳 ， 在 数据 立方 体 上 进行 聚集 即 为 “上 卷 ";， 通过 沿 维 的 概念 分 层 向 
下 或 引入 新 的 维 获得 由 不 太 详细 的 数据 到 更 详细 的 数据 即 为 “下 钻 ”操作 。 

在 OLAP 的 其 他 操作 还 有 统计 表 中 最 高 值 和 最 低 值 的 项 数 ， 计 算 平 均值 、 增 长 率 、 利 润 、 投 
资 汇报 率 等 统计 计算 。OLAP 还 提供 了 分 析 建 模 机 制 ， 包 括 推导 比率 、 变 差 等 以 及 跨越 多 维 计算 
度量 的 计算 引擎 ， 它 能 在 每 一 粒度 级 和 在 所 有 维 的 交叉 产生 汇总 、 聚 集 和 分 层 ， 也 支持 预报 、 趋 
势 分 析 和 统计 分 析 的 函数 模型 。 


10.5.3 ” 维 的 层次 关系 
维 的 层次 关系 可 用 一 个 层次 图 表示 , 图 10.13 即 为 销售 地 区 维 的 层次 关系 图 。 
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简单 层次 图 复杂 层次 图 


图 10.13 销售 地 区 维 的 层次 关系 图 


10.5.4 维 的 类 关系 


在 OLAP 的 应 用 中 , 常常 涉及 对 维 成 员 的 分 类 与 归纳 , 即 在 查询 中 根据 用 户 关于 类 别 的 要 求 
对 所 有 维 成 员 进行 分 类 ， 在 分 类 的 基础 上 归纳 出 类 的 共同 特征 或 区 别 于 其 他 类 的 特征 。 

在 OLAP 的 应 用 中 , 有 的 需要 按照 维 的 层次 关系 进行 分 析 , 有 的 需要 按照 维 成 员 的 类 进行 分 
析 。 维 层次 分 析 主 要 从 高 层 维 到 低层 维 的 “ 钼 取 ” 分 析 和 由 低层 维 到 高 层 维 的 “汇总 ”分 析 ; 维 
成 员 的 分 类 归纳 是 指 对 同一 层次 的 维 成 员 进 行 聚 类 分 析 。 在 实际 应 用 中 , 这 两 种 方法 常 交叉 使 用 ， 
10.14 即 为 这 二 者 的 组 合 图 。 





图 10.14 维 的 层次 与 类 组 合 图 
10.5.5 ”OLAP 与 数据 仓库 的 关系 
在 数据 仓库 中 ，OLAP 与 数据 仓库 是 密 不 可 分 的 ， 但 是 两 者 具有 不 同 的 概念 。OLAP 属于 数 





珊 








据 仓 库 应 用 , 它 以 数据 仓库 为 基础 , 它 采 用 客户 机 /服务 器 体系 结构 , 图 10.15 即 为 两 者 的 关系 


o 
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图 10.15 数据 仓库 与 OLAP 关系 图 
OLAP 采用 客户 机 /服务 器 体系 结构 ， 如 图 10.16 所 示 。 它 分 为 三 层 ， 其 中 第 一 层 为 客户 机 ， 
实现 最 终 用 户 功能 ,能够 方便 地 浏览 数据 仓库 中 的 数据 ,能够 生成 数据 立方 体 ,支持 各 种 OLAP 
操作 ,实施 决策 ; 第 二 层 为 分 析 服 务 嚣 ， 存 储 数 据 仓 库 中 的 综合 数据 ， 形 成 多 维 分 析 模 型 ; 第 三 


层 为 企业 服务 器 ， 存 储 数据 仓库 中 的 细节 数据 ， 它 来 自 数据 库 。 









第 一 层 : 客户 机 
SQL/DML 
第 二 层 : 分 析 服 务 器 | 数据 仓库 综合 


据 、 概 括 数据 


数据 仓库 细节 数据 


第 三 层 ， 企 业 服 务 器 






图 10.16 体系 结构 示意 图 
数据 仓库 的 结构 直接 影响 立方 体 的 设计 和 构造 , 也 影响 OLAP 的 工作 效率 ,为 了 提高 OLAP 

使 用 的 效率 ， 在 设计 数据 仓库 时 要 注意 以 下 几 点 。 

(1 ) 尽 可 能 使 用 星 型 构架 , 如 果 采 用 雪花 结构 , 就 要 最 小 化 事实 表 底层 维度 以 后 的 维度 数量 。 

(2 ) 为 用 户 设计 包含 事实 表 的 维度 表 , 这 些 维度 表 应 该 包含 有 意义 的 、 用 户 希 望 了 解 的 信息 。 

(3 ) 维度 表 的 设计 应 该 符合 通常 意义 上 的 范式 约束 ， 维 度 表 中 不 能 出 现 无 关 的 数据 。 

(4 ) 事实 表 中 不 能 包含 汇总 数据 , 事实 表 中 所 包含 的 用 户 需要 访问 的 数据 应 该 具有 必需 的 粒 
度 ， 这 些 数据 应 该 是 同一 层次 的 数据 。 

(5 ) 对 事实 表 和 维度 表 的 关键 词 必须 创建 索引 ， 同 一 种 数据 尽 可 能 使 用 一 个 事实 表 。 

(6 ) 保证 数据 的 参考 完整 性 ,使 事实 表 中 的 所 有 数据 都 出 现在 所 有 的 维度 表 中 ,避免 遗漏 事 
实 表 中 的 某 些 数据 行 。 
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10.6 ”基于 MATLAB 的 数据 仓库 开发 技术 


数据 仓库 是 在 传统 数据 库 的 基础 上 发 展 而 来 的 ， 掌 握 基 于 MATLAB 的 数据 库 技术 ， 再 结合 
MATLAB 计算 和 分 析 工具 ， 就 可 以 利用 MATLAB 建立 数据 仓库 。 

MATLAB 的 数据 库 技 术 主要 基于 数据 库 工 具 箱 ( Database Toolbox )， 它 能 够 使 MATLAB 与 
通用 关系 数据 库 进行 数据 交流 。 使 用 数据 库 工 具 箱 ， 可 以 从 一 个 数据 库 将 数据 读 到 MATLAB 工 
作 区 ， 然 后 用 matlab 的 计算 和 分 析 工 具 处 理 数据 ,并 且 把 结果 保存 到 原来 的 数据 库 或 另 一 个 数 
据 库 。 


10.6.1 “数据库 工具 箱 


MATLAB 数据 库 工 具 箱 包括 两 部 分 内 容 : 数据 库 工 具 箱 函数 和 VQB ( Visual Query Build， 
可 视 查 询 生成 器 )。 


























1.VQB 


VQB 是 一 个 图 形 用 户 界面 ， 用 来 在 数据 库 与 MATLAB 之 间 交 换 数据 ， 是 很 容易 使 用 的 工 
具 。 如 果 要 建立 查询 ， 从 数据 库 取 数据 ， 只 要 在 界面 上 选择 适当 的 信息 即 可 ,不 需要 使 用 函数 或 
做 过 多 的 输入 。VQB 从 数据 库 读 取 数 据 , 并 把 它 放 在 MATLAB 的 单元 数组 、 结 构 数组 或 数字 和 矩 
阵 中 ， 然 后 用 MATLAB 的 函数 处 理 它们 ， 还 可 以 利用 关系 表 、 报 表 或 图 表 的 形式 显示 它们 。 当 
然 , 也 能 用 VQB 从 MATLAB 将 数据 输出 到 数据 库 。 


2. 数据 库 工 具 箱 函数 


数据 库 工具 箱 函 数 的 功能 比 VQB 强大 , VQB 不 能 完成 的 某 些 工作 , 函数 可 以 完成 ; 而 VQB 
可 以 完成 的 工作 ， 函 数 同 样 能 完成 。 

数据 库 工 具 箱 函 数 的 功能 ， 包 括 连 接 /关闭 连接 数据 库 ， 数 据 库 中 的 数据 可 以 在 MATLAB 
工作 区 与 数据 库 双 向 流动 等 。 

数据 库 工 具 箱 可 以 同时 打开 多 个 数据 库 ， 可 以 从 一 个 数据 库 输出 数据 到 MATLAB 工作 窗 
口 ， 经 过 MATLAB 的 快速 数据 分 析 后 ， 然 后 输入 到 另 一 个 数据 库 。 数 据 库 中 的 多 种 数据 格式 都 
可 以 自动 保存 在 MATLAB 中 。 

数据 库 工 具 箱 支 持 适 合 于 ODBC/JDBC 数据 库 管 理 系统 的 数据 库 。 这 样 的 数据 库 包括 : IBM 
DB2 、Informix、Ingres、Microsoft Access、Microsoft Excel 、 MySQL 、Microsoft SQL Server 、Oracle、 
Postgre 、Sybase SQL Server、Sybase SQL Anywhere。 





3. 建立 数据 库 连 接 


在 应 用 数据 库 工 具 箱 前 ， 必 须 利用 数据 库 连 接 (ODBC ) 驱动 程序 连接 相应 的 数据 库 ， 即 建 
立 数据 源 。ODBC 驱动 程序 是 一 个 标准 的 PV 接口 ， 它 能 够 使 数据 库 管 理 系统 与 基于 SQL 的 应 
用 程序 进行 通信 。 

在 此 以 MATLAB 与 Access 的 示例 数据 库 tutorial.mdb、NorthWind 为 例 说 明 数 据 源 建立 的 




















方法 。 
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建立 数据 源 ， 是 在 操作 系统 提供 的 “ODBC 数据 源 管理 器 ”中 进行 的 。 在 MATLAB 工作 区 
中 ,输入 以 下 命令 打开 可 视 查询 生成 器 : 
>> querybuilder 
单 击 图 10.17 所 示 的 VQB 界面 中 的 Query 菜单 项 ,选择 其 中 的 Define ODBC Data Source 命 
令 ， 打开 如 图 10.18 所 示 的 “ODBC 数据 源 管 理 器 ”对 话 框 。 



















































































10DBC 数据 源 管理 器 
= CWere | Corowpby ) CC roving | orderby.- 

Oinet 嘱 要 ”到 [ EI 到 | 
区 

ee a 
I [see ] 
We se Momary ones) 

] J 

图 10.17 VQB 图 形 用 户 界 面 图 10.18 “0DBC 数据 源 管理 器 ”对 话 框 


在 “用 户 DSN” 选 项 卡 中 单 击 “ 添 加 ”按钮 , 打开 图 10.19 所 示 的 “创建 新 数据 源 ” 对 话 框 ， 
选择 一 个 驱动 程序 ( 如 Microsoft Access Driver(*.mdb) )， 单 击 “ 完 成 ”按钮 ， 关 闭 窗口 ， 并 弹出 
图 10.20 所 示 的 “ODBC Microsoft Access 安装 ”对 话 框 ,在 其 “数据 源 名 ”文本 框 中 输入 一 个 名 
字 , 如 sampledb， 并 在 “数据 库 ” 选 项 组 中 单 击 “ 选 择 ” 按 钮 ， 打 开 图 10.21 所 示 的 “选择 数据 
库 ” 对 话 框 。 














EE 




















| agoy 
图 10.19 “创建 新 数据 源 ” 对 话 框 图 10.20 “0DBC Microsoft Access 安装 ”对 话 框 





文件 类 型 中) ; 
Access 数据 库 Gr mc 


图 10.21 “选择 数据 库 ” 对 话 框 
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在 指定 的 目录 中 选择 数据 库 ,并 单 直 
安装 ”对 话 框 ， 单 





和 “确定” 按钮， 关闭 此 对 话 框 ， 打开 


“确定 "按钮 ,关闭 窗口 ,并 返回 “ODBC Microsoft Access 
“ODBC 数据 源 管理 器 ”对 话 框 ， 单 击 


“确定 ”按钮 ， 完 成 数据 源 的 建立 ， 此 时 可 以 在 “ODBC 数据 源 管理 器 ”对 话 框 中 看 到 刚刚 添加 
的 数据 源 名 ， 只 要 不 删除 ， 它 们 就 保存 在 数据 源 管理 器 中 。 





4. 数据 库 函 数 
数据 库 函数 如 表 10.8 所 示 。 各 函数 的 具体 应 用 格式 可 参见 相应 的 说 明 。 
表 10.8 数据库 函数 
函 数 说 明 说 明 
设置 最 大 连 9 时 间 ， 
logintimeout 生生 全 入 所 本 的 时 本 database 连接 数据 库 到 MATLAB 
单位 为 秒 
| 得 到 数据 库 连 接 对 象 conn 的 0 
setdbprefs ne RAE 输入 数据 到 MATLAB 
de 2 rows | 得 到 输入 数据 的 行 数 
resultset 的 对 象 
cols 得 到 输入 数据 的 列 数 得 到 输入 数据 集 的 列 宽度 
colummnnames | 得 到 数据 集 的 列 名 | ar ”| 得 到 输入 数据 的 列 的 属性 信息 
get 得 到 对 象 的 属性 从 MATLAB 添加 数据 到 数据 库 
用 MATLAB 的 数据 奉 换 数据 库 表 
commi 3 1 库 的 改变 
t 函数 确认 数据 库 的 改变 | hi 
rollback 撤销 对 数据 库 的 修改 | set ”| 为 对 象 设置 属性 值 
测试 数据 库 元 数据 对 象 是 否 支持 
dmd 构造 数据 库 metadata 对 象 supports 某 种 属性 入 证 二 沿 
able 得 到 数据 库 的 表 名 关闭 连接 





10.6.2 ”可 视 查 询 生成 器 


可 视 查 询 生 成 器 ( Visual Query Build，VQB ) 是 一 个 非常 容易 使 用 的 图 形 用 户 界面 ， 用 来 与 


数据 
库 读 取 数 据 ， 把 它 放 在 MATLAB 的 单 





库 交 换 数据 。 在 VQB 中 , 可 以 通过 从 列表 中 选择 信息 以 建立 查询 ， 读 取 数 据 。VQB 从 数据 


元 数组 、 结 构 数组 或 数字 矩阵 中 ， 这 样 可 以 用 MATLAB 








图 








函数 处 理 它 。 使 用 VQB 能 以 关系 表 、 
到 数据 库 ， 生 成 新 记录 。 


1. 建立 数据 源 


表 和 报表 的 形式 显示 数据 ， 也 能 从 MATLAB 输出 数据 





与 数据 
不 青 袭 述 。 





库 工 具 箱 函数 一 样 ，VQB 使 用 前 ， 也 要 先 建立 数据 源 ， 其 建立 方法 与 此 相同 ， 





在 此 
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2. 启动 与 关闭 VQB 
启动 VQB, 只 要 在 MATLAB 工作 区 中 输入 以 下 命令 或 选择 MATLAB 窗口 的 Start 菜单 项 即 可 : 


>> querybuilder 
关闭 VQB， 使 用 Query 菜单 项 中 的 Exit 命令 ,或 者 直接 关闭 VQB 图 形 界面 。 
3. 建立 并 执行 输入 数据 的 查询 
VQB 窗口 如 图 10.22 所 示 ， 其 中 窗口 各 元 素 的 意义 如 下 。 










































































图 10.22 VQB 窗口 

。 ”Query: 为 读 取 数据 设置 格式 优选 权 : 保存 、 加 载 、 执 行 查询 。 

。 ”Display: 显示 结果 ， 有 关系 表 、 图 表 、 报 表 等 形式 。 

。 ”Data operation: 指定 选择 。 输 入 数据 时 选择 “Select”; 输出 数据 时 选择 “Insert"， 为 必 
选项 。 

。 ”Data source: 指定 数据 源 ， 必 选项 。 

。 ”Table、Field: 选择 表 和 字段 ， 必 选项 。 

。 ”Advanced query options: 精细 查询 选项 。 

。 ”SQL statement: 自动 生成 的 语句 。 

。 ”Matlab workspace variable: 为 输入 数据 定义 变量 , 若是 数组 , 则 输入 的 数据 将 放 在 这 里 
必 选 项 。 

。 ”Execute: 执行 查询 ， 必 选项 。 

。 ”Workspace variable: 输入 数据 的 概况 显示 : 变量 名 、 数 组 大 小 、 占 内 存 字 节 数 。 双 击 变 
量 名 可 在 数组 编辑 窗口 中 查看 结果 。 


4. 为 读 取 数据 建立 查询 并 执行 


以 下 均 假 设 已 经 建立 了 数据 源 dbtoolboxdemo， 赋 予 它 的 数据 库 是 tutorial。 
打开 VQB: 
>> querybuilder 





地 
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然后 在 VQB 窗口 按 下 列 步骤 操作 : 

@ 在 Data operation 域 选择 “Select"， 表 示 从 数据 库 选 择 数 据 。 

@ 从 Data source 列表 框 中 选择 数据 源 以 输入 数据 。 此 后 在 Table 列表 框 中 将 出 现 tutorial 
中 的 表 名 。 

@ 从 Table 列表 框 中 选择 要 输入 数据 的 表 salesaVolume， 此 后 表 中 的 字段 将 出 现在 Fields 
列表 框 中 。 

@ 同时 选择 字段 名 : StockNumber、January、February 和 March ( 按 住 Ctrl 键 的 同时 ， 单 
击 这 个 字段 名 )， 要 从 这 些 字 段 读 取 数 据 ， 此 时 ， 生 成 的 查询 语句 出 现在 SQL statement 
域 中 。 

加 在 matlab Workspace variable 中 为 查询 返回 的 数据 指定 一 个 变量 名 A。 

@ 单 击 Execute 按钮 ， 执 行 查询 。 读 取 的 数据 存在 MATLAB 的 变量 A 中 ，A 是 一 个 单元 
数组 (默认 值 ), 它 的 信息 显示 在 Data 域 中 ,如 图 10.23 所 示 。 可 以 用 setdbprefs 改变 A 
显示 的 格式 。 

@ 双击 data 域 中 的 A， 其 内 容 显示 在 数组 编辑 器 ( Array Editer ) 中 ， 如 图 10.24 所 示 。 同 
样 如 果 在 MATLAB 工作 窗口 输入 变量 名 A 也 可 以 显示 读 取 的 数据 。 
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[SELECT ALL StockNumber January FebruaryMarch FROM salesVokme 





MATLAB workspace variable 
四 




















图 10.23 A 的 信息 显示 在 Data 域 图 10.24 A 的 信息 显示 在 数组 编辑 器 中 
5. 保存 和 编辑 查询 
(1) 保存 查询 。 
@ 从 Query 菜单 项 中 选择 Save 命令 ， 打开 Save SQL Statement 对 话 框 。 
@ 在 File name 域 中 输入 文件 名 ( 假设 为 qfile.qry ), 单 击 Save 按钮 ,文件 被 保存 在 MATLAB 
根 目录 中 的 work 文件 夹 中 -此 时 只 保存 了 查询 本 身 , 并 不 保存 工作 区 变量 和 查询 优选 权 。 
(2 ) 使 用 保存 的 查询 。 
中 从 Query 菜单 项 中 选择 Load 命令 ， 打 开 Load SQL Statement 对 话 框 。 
@ 选择 要 加 载 的 查询 名 ( qfile.qry )， 单 击 Open 按钮 ，VQB 的 多 个 域 中 立即 反映 出 被 查询 
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的 值 。 
@ 给 查询 结果 指定 一 个 变量 名 ， 单 击 Execute 按钮 。 
(3 ) 编辑 查询 。 
已 经 建立 的 或 加 载 的 查询 ， 都 可 以 修改 ， 然 后 再 执行 或 保存 。 
也 能 在 VQB 中 直接 修改 SQL 语句 。 
(4 ) 消除 Data 域 中 的 变量 。 
Data 域 中 包括 为 查询 结果 定义 的 变量 和 在 命令 窗口 中 定义 的 变量 .只 有 在 执行 了 正确 的 查询 
， 在 命令 窗口 中 定义 的 变量 才 出 现在 Data 域 中 。 
在 命令 窗口 执行 clear 命令 时 ， 可 清除 变量 。 被 消除 的 变量 不 会 自行 从 Data 域 消失 ， 也 要 在 
执行 了 正确 的 查询 后 才 消 失 。 


6. 为 NULLS、 数 据 格式 和 错误 处 理 指定 优先 权 
所 谓 优先 权 ， 是 指 在 对 NULLS 、 数 据 格式 和 错误 处 理 时 ， 被 指定 了 选择 格式 具有 被 优先 使 





























未 




















用 的 权利 。 
(1 ) 从 Query 菜单 项 中 选择 Preferences 命令 ， 打 开 Database Toolbox Preferences 对 话 框 ， 
此 时 图 中 显示 的 都 是 默认 值 。 


(2 ) 改变 当前 的 设置 值 ， 然 后 单 击 OK 按钮 ， 即 可 改变 优先 权 。 

如 可 以 将 Data return format 设置 为 numeric ( 默认 值 为 cellarray )。 这 两 种 格式 读 取 的 数据 ， 
数组 格式 占 的 内 存 大 , 处 理 速度 慢 , 显示 在 命令 窗口 的 数据 带 有 方 括号 ; 而 数字 格式 占 的 内 存 小 ， 
处 理 速度 快 ， 显 示 在 命令 窗口 中 的 是 数据 本 身 。 
































将 Real NULL numbers as 设 为 0 时 (默认 6 Arr ay 
对 为 NaN)， 当 读 取 的 数据 库 中 出 现 NULL 数 。 厨具 外 虹 | 多 | -| ewe ees | 
| 站 本 示 加 | ee | 981 
值 时 ， 现 在 就 用 0 表示 。 可 | 2400| 1721 1414 
将 Enor bending 设 为 por 时 (对 人 什 为 。 上 一 等 汪汪 一 淖 一 划 
store )， 当 执行 查询 时 产生 的 任何 错误 都 立即 | 03 0 5 2500 
二 Ie] 400345 5000| 3500 2800 
显示 在 命令 窗口 中 。 了 400455| 1200| 300 B00 
对 于 上 述 的 设置 ， 也 可 以 用 setdbprefs 函 。 | 一 40599 3901500 T1009 
Ee 888652 ol 9300 _821 
数 实现 。 ET- ~ 1 
图 10.25 所 示 的 即 为 A 在 MATLAB 工作 窗 。 图 10.25 A 显示 的 格式 (数字 矩阵 ，NaN 用 0 表示 ) 
口 显示 的 格式 。 
7. 浏览 查询 结果 





在 VQB 中 执行 查询 后 , 就 可 以 在 命令 窗口 或 数组 编辑 器 中 看 到 查询 的 结果 。 但 事实 上 , VQB 
还 可 以 用 其 他 方式 来 处 理 和 查看 结果 。 
(1 ) 数据 的 关系 表 。 
从 VQB 的 Display 菜单 项 中 选择 Data 命令 ， 便 可 以 生成 图 10.26 所 示 的 数据 表 。 
从 数据 表 中 还 可 以 显示 出 数据 之 间 的 关系 。 如 单 击 January 字段 的 3000， 则 相关 的 数 用 黑体 
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显示 ,并 且 用 点 线 连 接 。 它 表示 January 的 销售 额 3000 单位 对 应 的 StockNumber 货号 ) 有 400314、 
400876 和 400999。 根 据 连 线 可 以 看 出 这 三 个 货号 的 商品 在 February 和 March 的 销售 额 。 
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图 10.26 数据 表 及 其 数据 之 间 的 关系 
(2 ) 图 表 显示 结果 。 
从 VQB 的 Display 菜单 项 中 选择 Chart 命令 ， 打 开 图 10.27 所 示 的 对 话 框 。 


cmer 


站 
aruary 
Fobruory 
erch 


| 
we 
Ee 





DD Aooreaate column data 


cKNUmber 















































图 10.27 用 图 表 显 示 查 询 结 果 

从 图 中 选择 合适 的 选项 ， 便 可 以 得 到 不 同类 型 的 图 形 ， 还 可 以 单 击 图 中 的 Display 按钮 ， 可 
以 将 图 形 显示 在 图 表 窗 口中 。 
图 例 的 大 小 和 位 置 可 以 改变 。 单 击 图 例 ,在 弹出 的 快捷 菜单 中 选择 Properties 命令 ， 则 图 例 
四 周 出 现 可 拉动 的 黑 块 ， 拉 动 它们 即 能 改变 大 小 ， 直 接 拖 忠 图 例 ， 则 可 以 移动 其 位 置 。 

选择 Insert 菜单 ， 可 以 对 图 例 加 注 标注 。 

(3 ) 报表 显示 在 Web 浏览 器 上 。 

从 VQB 的 Display 菜单 项 中 选择 Report 命令 ， 查 询 结果 报表 便 可 以 出 现在 Web 浏览 器 上 。 

在 这 个 报表 中 ,一 行 是 一 个 记录 。 
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从 VQB 取 来 的 字段 值 若 没有 字段 名 ， 可 以 通过 在 MATLAB 工作 窗口 中 修改 变量 A 而 得 到 
表 头 名 ， 如 图 10.28 所 示 。 




















Table 1. Database Toolbox Default Report 





StockNumber Danuary 
1400 
Psoo 
1aoo 


















































图 10.28 A 的 结果 显示 在 Web 浏览 器 中 
>> A={{"'stocknumber', 'January', 'February', 'March' };A}; 


然后 在 报表 生成 器 中 ， 修 改 Header/Footer Options 中 的 Number of header rows 为 1， 则 输出 
报表 时 字段 名 便 会 出 现在 表 头 中 。 
使 用 Web 浏览 器 能 够 将 这 个 报表 保存 为 HTML 页 ， 以 供 今后 查看 ， 也 可 以 使 用 浏览 器 的 打 
印 功能 打印 报表 。 
(4) 利用 报表 生成 器 定制 报表 。 
从 VQB 的 Display 菜单 项 中 选择 Report Generator 命令 ， 打 开 报 表 生 成 器 窗口 ， 如 图 10.29 
所 示 。 
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图 10.29 报表 生成 器 
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在 窗口 中 间 的 Name 列表 框 中 选择 databasetlbx.rpt ( 这 是 VQB 自 带 的 一 个 报表 模板 )， 然 后 
单 击 Open report 按钮 ， 打 开 报 表 选 项 窗口 。 

从 窗口 左边 的 Report Generator 列表 框 中 选择 Table-ans 选项 ,然后 将 Workspace variable name 
文本 框 中 的 ans 改 成 A ( 结果 变量 )， 将 Number of header rows 中 的 “1” 改 成 “0”( 即 报表 没有 
报头 ), 在 File 菜单 中 选择 Report 命令 , 则 生成 的 报表 就 显示 在 Web 浏览 器 中 。 同样 可 以 利用 前 
述 的 方法 加 上 表 头 。 


8. 精细 查询 
精细 查询 即 为 高 级 查询 , 包括 只 提取 字段 中 唯一 的 值 , 读 取 符合 指定 条 件 的 信息 , 按 指 定 顺 



































序 排列 查询 结果 ， 为 多 个 表 中 的 值 建立 子 查询 、 联 合 查询 等 。 

(1 ) 读 取 的 字段 值 避免 重复 。 

在 VQB 窗口 中 ，Advanced query options 下 有 一 对 单 选 按钮 : All 和 Distinct。 选 择 Distinct 
单 选 按钮 ， 表 示 读 取 的 字段 值 没 有 相同 的 ， 即 相同 值 只 取 一 个 ;而 选择 All 单 选 按钮 ， 则 读 取 字 


段 的 所 有 值 。 

(2 ) 读 取 符 合 指定 条 件 的 信息 。 

在 Advanced query options 中 的 Where 域 ， 用 来 给 出 条 件 ， 以 形成 SQL 语句 的 条 件 子 句 。 

单 击 Where 按钮 ， 即 可 打开 Where Clauses 对 话 框 ， 便 可 以 指定 选择 条 件 。 

在 Condition 下 面 选择 Relation, 在 其 下 拉 列 表 框 中 选择 “>”, 再 在 右边 文本 框 中 写 入 400000， 
单 击 Apply 按钮 ， 则 条 件 StockNumber>400000 就 出 现在 Current clauses 域 中 。 

从 Current clauses 中 选择 StockNumber>400000; 单 击 Edit 按钮 , 在 Operator 中 选择 AND 选 
项 ， 单 击 Apply 按钮 ， 则 Current clauses 改变 为 StockNumber>400000 AND, ( 也 可 以 直接 在 编辑 
StockNumber>400000 时 后 选择 Operator 中 选择 AND )。 

以 同样 的 方法 ， 加 上 另 一 个 条 件 。 最 后 单 击 OK 按钮 ， 关 闭 Where Clauses 对 话 杠 。 此 时 在 
VQB 的 SQL 域 中 ， 有 一 条 完整 的 语句 ， 如 图 10.30 所 示 。 
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图 10. 30 指定 查询 条 件 的 VQB 
单 击 Execute 按钮 ， 便 可 得 到 查询 结果 。 
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(3 ) 给 指定 条 件 分 组 。 

这 是 前 面 的 Where 子 句 的 继续 。 按照 前 述 的 方法 编辑 好 条 件 语句 后 , 选择 需 合 并 的 条 件 , 再 
单 击 group 按钮 ， 即 可 将 子 句 中 的 几 个 条 件 合并 为 一 个 ,使 其 成 为 一 个 整体 条 件 。 要 注意 逻辑 运 
筹 符 的 优先 次 序 ， 这 样 才能 正确 编辑 查询 条 件 语句 。 

(4 ) 按 指定 顺序 排列 结果 。 

查询 得 到 的 结果 ,是 按 记 录 在 数据 库 中 的 顺序 排列 的 ， 数 据 随机 出 现 。 在 实际 应 用 中 ,为 了 
对 某 些 数据 做 直观 的 比较 ， 需 要 对 数据 重新 排序 。 

在 VQB 中 ，Advanced query options 中 的 Order by 提供 了 重新 排列 数据 的 功能 。 在 打开 的 
Order by Clauses 对 话 框 中 的 Sort key number 是 排列 项 的 顺序 。 

(5 ) 用 多 个 表 的 值 建立 子 查询 。 

Where 域 不 仅 可 以 建立 条 件 查询 ， 还 可 以 建立 子 查询 。 即 利用 其 他 表 中 相关 的 值 作为 条 件 ， 
进一步 限制 查询 ， 这 是 SQL 语句 的 伐 套 。 使 用 VQB， 只 能 建立 一 个 子 查询 ， 而 利用 数据 库 函 数 
可 以 建立 多 个 子 查询 。 

建立 子 查询 ， 需 要 利用 Subquery 域 ， 建 立方 法 与 前 类 似 ， 按 提示 进行 ， 不 再 效 述 。 

(6 ) 联合 查询 一 结果 来 自 多 个 表 的 查询 。 

联合 查询 ， 是 指 在 VQB 中 建立 查询 ， 要 选择 几 个 表 ， 从 每 个 表 中 抽取 所 需 的 信息 ， 组 成 一 
个 乡 结果 。 

联合 查询 与 子 查询 有 点 不 同 。 联 合 查询 在 建立 查询 时 选择 多 个 表 , 这 些 表 不 一 定 包含 共享 字段 ， 
不 建立 子 查询 。 而 子 查询 是 建立 查询 和 子 查询 时 分 别 选 择 不 同 的 表 ， 这 些 表 必须 包含 共享 字段 。 

可 以 在 VQB 窗口 中 的 Table 域 中 同时 选择 所 指定 的 表 ， 如 同时 选择 productTable 表 和 
SalesVolume 表 ， 由 此 Fields 域 列 出 了 字段 名 ， 可 以 看 出 ， 此 时 字段 名 前 加 了 表 名 。 

再 在 Fields 域 中 同时 选择 所 需 的 表 , 如 productTable.productDescription、 salesVolume.January 、 
salesVolume.February 和 | salesVolume.March 。 

再 利用 Where 域 ， 指 定 查询 条 件 ， 便 可 得 到 查询 结果 ， 如 图 10.31 所 示 。 
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图 10. 31 VQB 查询 表 
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(7) 用 VQB 输出 数据 。 
将 数据 从 MATLAB 输出 到 另 一 数据 库 ， 可 以 在 VQB 中 建立 输出 数据 的 查询 并 执行 它 。 
这 种 输出 只 能 写 新 数据 行 到 数据 库 , 而 不 能 用 新 数据 替换 已 存在 的 数据 , 也 即 只 能 增加 而 不 
能 修改 。 要 修改 原来 的 数据 ， 用 update 函数 。 
此 时 ,首先 在 VQB 界面 中 选择 插入 内 容 所 在 的 数据 源 ， 在 Data Operation 域 选择 Insert, 在 
Table 和 Fields 中 选择 插入 内 容 所 在 的 表 和 对 应 的 域 ,然后 命名 变量 名 称 ， 单 击 Execute， 就 可 将 
数据 插入 到 数据 库 ， 并 在 matlab command 文本 框 中 显示 生成 的 查询 语句 。 





9. MATLAB 的 逻辑 型 数 ( Boolean Data ) 


在 数据 库 应 用 中 ,免不了 用 到 逻辑 型 数 , 即 某 个 字段 的 值 表示 两 种 状态 之 一 : 是 或 否 ( 真 或 
假 ) 在 MATLAB 中 ,用 Boolean 表示 逻辑 型 数 。 

VQB 可 以 输入 或 输出 此 类 型 数 ， 当 然 它 只 能 存储 在 单元 数组 或 结构 数组 中 ， 它 有 两 个 值 : 0 

(表示 假 )，1 (表示 真 )。 
(1 ) 输入 Boolean 类 型 数据 。 

在 所 选择 的 数据 库 中 ， 如 果 某 表 中 的 某 字 段 是 用 复 选 框 的 打 钩 表示 或 用 false 或 true 表示 ， 
或 用 0 或 1 表示 某 种 状态 等 等 ,这 些 都 说 明 它 们 为 逻辑 类 型 的 数据 。 在 这 种 情况 下 ， 就 可 以 按照 
前 述 的 方法 进行 查询 ， 其 查询 结果 以 二 值 矩阵 表示 。 

(2 ) 输出 Boolean 类 型 数据 。 

此 操作 可 以 在 数据 库 中 插入 Boolean 类 型 数据 。 此 时 应 先 在 MATLAB 窗口 里 ， 建 立 一 个 如 
下 形式 的 命令 作为 输出 的 结构 : 

R1.ProductName{1}=' 巴 西 咖啡 '; 














Al.Discontinued{1}=logical (1); 


打开 VQB， 在 Data operation 域 中 ， 选 择 Insert， 在 Table 、Fields 中 选择 数据 源 中 所 要 查询 
的 表 及 域 ， 在 matlab workspace variable 中 指定 变量 A1， 单 击 Execute 按钮 ， 就 可 以 将 所 建立 的 
输出 结构 加 入 到 相应 的 数据 库 中 。 


10.6.3 ”数据 的 存 取 类 型 


在 数据 仓库 中 , 经 常会 遇 到 较为 复杂 结构 的 数据 , 为 了 能 更 好 地 存 取 这 些 数 据 ， 可 以 应 用 以 
下 方法 。 








1. 结构 数组 
结构 是 一 种 用 字段 容纳 数据 的 MATLAB 数组 , 结构 的 字段 能 包含 任何 类 型 的 数据 , 它 的 操 
作 与 一 般 的 数组 操作 方法 类 似 。 
(1 ) 结构 数组 的 建立 。 
建立 结构 数组 有 两 种 方法 : 
@ 使 用 赋值 语句 。 
直接 对 单个 字段 指定 数据 ， 建 立 一 个 简单 的 1x1 的 结构 数组 。 
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>> patient.name='John Doe'7patient-billing=1277 
>> patient.test=[79 75 73;180 178 177.5;2202 210 205]; 
>> patient 
patient =name: 'John Doe'" 
billing: 127 
test: [3x3 double] 


要 对 此 数组 进行 扩展 ， 只 要 在 结构 名 后 加 下 标 ( 即 数组 的 下 标 )， 再 做 一 次 赋值 即 可 。 如 果 
有 未 指定 的 字段 ，MATLAB 用 空 矩 阵 填充 。 

使 用 fieldnames 函数 ， 可 以 得 到 结构 所 含 的 字段 ， 字 段 名 以 字 串 单元 数组 的 形式 出 现 。 

@ 利用 struct 函数 建立 结构 数组 。 

struct 函数 的 调用 格式 : 

s=struct ('fieldl',valuesl, 'field2' ,values2,...) ,其 中 fieldi 表示 字段 名 , valuesi 
表示 对 应 于 的 字段 值 , 必须 是 同样 大 小 的 单元 数组 或 标题 

>> s=struct ('string', {{'hello', 'yes'}},'lengths', [5 3]); $ 注 意 第 二 个 字段 值 

>> s=string: {'hello' 'yes'} 


lengths: [5 3] 


struct 函数 能 够 在 内 存 中 为 结构 数组 预先 保留 位 置 ， 即 在 使 用 前 预 分 配 内 存单 元 。 
(2 ) 使 用 动态 字段 名 。 
存 取 结 构 数组 数据 的 常用 方法 并 不 适合 较为 复杂 程序 的 应 用 ， 因 为 事先 不 能 将 字段 名 一 一 
列 出 ， 此 时 可 应 用 动态 字段 名 ， 即 用 变量 表示 字段 名 ， 在 程序 运行 时 ， 使 真正 字段 名 代替 变量 ， 
以 便 存 取 值 ， 其 语法 形式 为 : stuctName.(expression)。 在 这 些 形式 后 面 加 标准 索引 ， 就 可 以 存 取 
某 字段 的 某 个 或 某 些 元 素 值 。 
例 下 面 的 例子 : 
function testn=gettest (Patient,test) 
testn=patient. (test) (2,1:3) 
>> patient=struct ("name',{f'John','Rnn Lane'},'testl1',{[79 75 74;73 87 90] ，… 
[99 93 86; 91 72 95]}, 'test2', {[66 67 68;69 71 82], [83 74 90;61 82 93]}); 
>> gettest (patient (1), 'test1') 
testn=73 87 90 


(3 ) 增加 和 删除 结构 字段 。 
任何 已 经 存在 的 结构 数组 ， 都 能 增加 字段 ， 而 且 只 要 为 其 中 的 任何 一 个 结构 增加 就 可 以 ， 
MATLAB 会 自动 把 增加 的 字段 扩展 到 其 他 结构 。 
利用 rmfield 函数 可 以 从 结构 中 删除 一 个 或 多 个 某 字段 : s=rmfield(s,'field') 
(4 ) 用 结构 数组 组 织 数组 。 
考虑 一 个 128x128 的 RGB 图 像 , 目前 图 像 的 数据 按 Red、Green 和 Blue 分 别 存 储 于 3 个 独 
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立 的 数组 中 。 
可 以 按 两 种 方式 将 RGB 图 像 组 织 为 结构 数组 。 
@ 平面 组 织 。 














把 上 述 的 3 个 数组 变 为 结构 数组 A 的 3 个 字段 ,每 个 字段 是 完整 的 一 个 图 像 平面 : 
>>A.r=red;A.g=green;A.b=blue; 

@ 单元 素 组 织 。 

单元 素 组 织 , 就 是 把 RGB 图 像 3 个 独立 数组 的 单个 数组 ,作为 结构 中 每 个 字段 的 值 。 这 种 
组 织 的 优势 ， 显 然 在 于 存 取 图 像 的 子 集 。 

从 RGB 图 像 3 个 独立 的 数组 ， 建 立 一 个 128x128 个 结构 的 数组 ， 需 要 用 循环 语句 完成 ; 


for 1i=1:size(RED,1) 





for j=1:size (RED, 2) 
B(i,j) .r=RED(i,j);B(i,j) .g=GREEN (i,j);B(i,j) .b=BLUE (i,j); 
end 
end 
这 两 种 结构 各 有 优 缺 点 。 平 面 结构 更 适合 于 一 次 操作 所 有 的 字段 ;而 单元 素 组 织 更 容易 存 
取 单个 客户 的 所 有 信息 。 
(5 ) 殿 套 结构 。 
在 结构 的 字段 中 包含 另 一 个 结构 ， 甚 至 是 一 个 结构 数组 ， 这 就 是 嵌 套 结构 。 
一 旦 建立 了 结构 , 就 可 以 用 struct 函数 , 或 者 用 直接 赋值 语句 , 在 已 有 的 结构 字段 中 建立 骨 
>> a=struct ('data', [3 4 7;2 4 6], 'nest',struct('testnum', 'testl', 'xdata', [4 
2 0 vadatae Li 61 
a = data: [2x3 double] 


nest: [lxl struct] 


存 取 网 套 结构 中 的 数据 ， 索 引 要 复杂 一 些 ， 需 使 用 点 操作 符 将 父 套 的 字段 名 一 一 罗列 在 索 
引 中 。 字 段 名 的 前 后 次 序 ， 表 示 字 段 嵌 套 的 层次 。 索 引 表示 式 中 的 第 1 个 文本 串 ， 是 结构 数组 的 
名 称 ， 后 面 是 包括 其 他 结构 的 字段 名 。 

>> a.nest=testnum: "test1" 

xdata: [4 2 8] 

ydata: [7 1 6] 

>> a.nest.xdata=4 2 8 

(6 ) 多 维 结构 数组 。 

多 组 结构 数组 是 方形 结构 数组 的 扩展 。 与 普通 多 维 结构 数组 一 样 , 多 维 结构 数组 可 以 使 用 直 
接 赋值 语句 或 cat 函数 建立 。 


>> patient (1,1,1) .name="'John';patient (1,1,1) .biling=127.0;patient (1,1,1) .test=[1 2 
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人 
>> patient (1,1,2) .name='Rl Smith';patient (1,1,2) .biling=207.0;patient (1,1,2) .test=[4 
Sl 
>> patient (1,2,1) .name="'Ann Lane';patient (1,2,1) .biling=130.0;patient (1,2,1) .test=[3 
ES 
>> patient (1,2,2) .name='Dora'7patient(1,2,2) .biling=120.0;patient (1,2,2) .test=[1 5 
人 

以 上 数组 中 的 第 3 个 数字 表示 页 。 

2. 单元 数组 

单元 数组 是 在 一 个 数组 中 包含 多 个 单元 ( cell ), 每 个 单元 作为 一 个 独立 的 存储 单元 存储 。 单 
元 中 的 数据 可 以 是 数组 、 字 串 、 向 量 或 标题 。 

(1 ) 建立 单元 数组 。 

可 以 分 别 使 用 函数 及 赋值 方法 建立 单元 数组 。 

@ 使 用 赋值 语句 建立 单元 数组 。 

为 单元 赋值 ， 可 采用 两 种 索引 方式 。 





I 单元 索引 
>>A(1,1)={[1 2 3;0 9 8]};A(l1,2)={"'abcdefg'};A(2,1)={8+9i};A(2,2)={-pi:pi/10:pi}; 
>>A= [2x3 double] 'abcdefg"' 


[8.0000 + 9.0000i] [1x21 double] 


工 内 容 索 引 
>>A{1,1}=[1 2 3;0 9 8];A{1l,2}="'abcdefg';A{2,1}=8+9i;A{2,2}=-pi:pi/10:pi; 
如 果 被 赋值 的 单元 在 当前 数组 的 维 数 之 外 ，MATLAB 将 自动 扩展 这 个 数组 ， 以 包含 指定 的 
下 标 ， 并 且 用 空 矩阵 填充 插入 的 单元 。 
>>A(3,3)={5}; 
>>A=[2x3 double] "abcdefg" [] 
[8.0000 + 9.0000i] [1x21 double] i 
[] [] [5] 
@ 利用 cell 函数 作为 单元 数组 预 留 空间 。 
用 cell 函数 能 够 预先 分 配 指定 大 小 的 空 单元 数组 。 其 基本 调用 格式 为 : 
A=cell (n,m); 
@ 显示 单元 数组 内 容 。 
可 以 分 别 用 直接 求索 引 、 函 数 celldisp 显示 单元 数组 的 内 容 。 
(2 ) 嵌 套 单元 数组 。 
[以 cell 函数 、 符 套 的 方 括号 和 直接 赋值 的 方法 建立 嵌 套 的 单元 数组 。 


b=] 





| 
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>> A=cell (1,2) ;A(1,2)={cell1 (2,2)}; 

>> A=[] {2x2 cell} 

(3 ) 结构 的 单元 数组 。 

用 单元 数组 存储 具有 不 同 字段 的 结构 ， 是 单元 数组 与 结构 的 结合 。 

>> mystr=cell (1,2) ;mystr{1} .xdata=[1 2 3;4 5 6] ;mystr{1}.ydata=[3 5 3;6 7 3]; 
>> mystr{2}.1label="'2014-10-1'; mystr{2}.o0bj=[1 3]; 

>> mystr=[1x1 struct] [1x1 struct] 

(4 ) 多 元 单元 数组 。 

多 元 单元 数组 是 二 维 单元 数组 的 扩展 ， 建 立方 法 与 建立 多 元 数字 数组 一 样 。 


3. 多 维 数组 、 单 元 数组 或 结构 数组 


在 MATLAB 中 , 把 大 于 二 维 的 数组 ( 单元 数组 /结构 数组 )、 称 作 多 维 数组 ( 单元 数组 /结构 
数组 )。 能 在 矩阵 上 执行 的 大 部 分 操作 都 可 以 用 于 多 维 数组 ( 单元 数组 /结构 数组 )。 

存 取 多 维 数组 ( 单元 数组 /结构 数组 ) 的 元 素 需要 更 多 的 下 标 。 例 如 对 于 三 维 数组 ， 使 用 3 
个 下 标 : 第 1 个 下 标 表 示 行 索引 ， 第 2 个 下 标 表示 列 索引 ,第 3 个 索引 表示 页 索引 。 而 对 于 更 多 
维 的 数组 ， 一 般 很 难 想象 它 的 空间 模样 。 








SrTanaK2RIES $ 三 维 数组 
ans(:,:,1) =0.8147 sg 第 1 页 ,在 此 页 为 2x1 数组 
0.9058 


nel O270 s 第 2 页 
0.9134 

nol O63 $% 第 3 页 
0.0975 


(1 ) 建立 多 维 数组 。 
建立 矩阵 (单元 数组 /结构 数组 ) 的 方法 都 可 以 用 来 建立 多 维 数组 (单元 数组 /结构 数组 )。 
例如 使 用 索引 来 扩展 数组 、 使 用 rand、ones、zeros 和 repmat 等 函数 。 
(2 ) 多 维 数组 ( 单元 数组 /结构 数组 ) 的 索引 。 
适用 于 矩阵 的 一 些 概念 可 以 推 及 到 多 维 数组 ( 单元 数组 /结构 数组 ), 诸如 存 取 单 个 元 素 使 用 
整数 下 标 ; 使 用 冒号 用 于 索引 表达 式 以 存 取 子 集 或 数组 的 整 行 、 整 列 或 全 部 页 ; 使 用 线性 索引 将 
每 一 页 作为 一 个 矩阵 ， 逐 页 排列 ， 形 成 一 个 更 大 的 列 向 量 。 
(3 ) 多 维 数组 ( 单元 数组 /结构 数组 ) 作为 运算 对 象 。 
MATLAB 的 许多 计算 和 数学 函数 接受 多 维 数组 ( 单元 数组 /结构 数组 ) 作为 参数 。 这 些 函 数 
巴 多 维 数组 ( 单元 数组 /结构 数组 ) 指定 的 维 作为 运算 对 象 ， 即 它们 运算 单个 元 素 、 向 量 或 矩阵 ; 
或 者 是 把 提取 单个 维 的 数据 再 作 各 种 运算 。 
(4) 用 多 维 数组 ( 单元 数组 /结构 数组 ) 组 织 数据 。 
在 MATLAB 中 , 用 多 维 数组 ( 单元 数组 /结构 数组 ) 存储 数据 有 两 种 方法 : 一 是 平面 形式 ， 
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即 用 二 维 数组 存储 数据 ,然后 把 数据 作为 矩阵 处 理 ; 二 是 立体 形式 , 即 用 三 维 或 更 高 维 的 数组 存 
储 数 据 ， 然 后 或 者 处 理 其 中 的 页 ， 或 者 处 理 数据 子 集 。 


10.6.4 数据 输入 和 输出 


MATLAB 提供 了 许多 输入 和 输出 数据 的 方法 。 这 里 的 输入 是 指 磁盘 文件 或 剪贴 板 中 加 载 数 
据 到 MATLAB 工作 区 ; 输出 是 指 保存 工作 区 的 变量 到 磁盘 文件 。 输 入 或 输出 数据 选择 哪 一 种 方 
法 ， 主 要 取决 数据 的 格式 : 文本 、 二 进 制 或 标准 格式 如 HDF 等 。 

MATLAB 中 有 许多 用 于 数据 输入 的 函数 , 可 以 根据 数据 的 不 同 格式 , 选用 合适 的 输入 函数 。 
另外 ,还 可 以 用 工具 箱 (或 从 import data 菜单 入 手 ) 执行 专门 的 输入 任务 。 














1. 保存 和 加 载 MAT 文件 


MAT 文件 是 双 精 度 、 二 进 制 、MATLAB 格式 文件 。 
使 用 save 函数 可 以 把 工作 区 的 变量 输出 到 二 进 制 或 ASCII 文 件 ,如 果 缺 省 文件 名 ,MATLAB 
指定 为 matlab.mat， 其 调用 格式 为 : 


save filename Varl var2 .varN 


表示 将 各 个 变量 ( 可 以 使 用 通配符 * ) 保存 到 文件 filename 中 。 

使 用 此 函数 ， 还 可 以 保存 整个 结构 ， 也 可 以 把 结构 的 每 个 字段 作为 一 个 变量 保存 ， 或 把 指 
定 的 每 个 字段 保存 为 单独 变量 。 

如 果 在 save 函数 中 加 入 -append 选项 ， 则 可 以 将 新 的 变量 添加 到 已 经 存在 的 MAT 文件 中 。 

在 使 用 save 函数 保存 文件 时 , 缺 省 值 是 压缩 数据 , 如 果 要 禁止 压缩 , 需 在 save 命令 中 加 -v6 
选项 。 

使 用 load 函数 可 以 从 二 进 制 或 AScI 文件 加 载 变 量 到 MATLAB 工作 区 , 如 果 缺 省 文件 名 ， 
MATLAB 使 用 matlab.mat， 其 调用 格式 为 : 

load filename Varl Var2 .VarN 


表示 将 文件 上 指定 的 变量 加 载 到 工作 区 。 
2. 输入 文本 数据 


可 以 用 多 种 方法 输入 文本 数据 ,但 究竟 选用 哪 一 个 ， 取 决 于 文件 的 格式 。 文 本 文件 必须 是 
式 化 的 。 它 的 行 与 列 有 整齐 的 形式 ， 数 据 之 间 用 定 界 符 分 隔 ， 定 界 符 可 以 是 空格 、 逗 号 、 分 号 、 
制 表 符 或 其 他 字符 。 单 个 项 可 以 是 字母 、 数 字 或 字母 数字 的 混合 。 

文本 文件 也 能 够 包含 一 个 或 多 个 头 行 。 文 本 头 有 3 种 ， 即 文本 头 ( 即 文件 标题 )、 行头 ( 行 
标题 ) 和 列 头 〈 列 标题 )， 它 们 分 别 用 来 标识 文件 、 行 和 列 。 

输入 文本 数据 的 函数 有 : csvread、dlmread、fscanf、load、textread 和 textscan 等 。 这 些 函 数 
的 应 用 格式 可 参见 其 帮助 文件 。 





3. 输入 带 有 文本 头 的 数据 
输入 带 有 文本 头 的 数据 文件 可 以 用 textscan 函数 。 在 应 用 此 函数 时 , 首先 必须 用 fopen 函数 
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打开 文件 。fopen 为 textscan 提供 了 它 需 要 的 文件 标识 符 fid。 完 成 读 操作 后 ， 应 当 使 用 felose 函 
数 关闭 文件 。 


textscan 函数 的 调用 格式 为 


其 中 其 支 


类 别 


数字 字 
段 格式 


二 
段 格式 


字符 字 
段 格式 


定义 符 


%n,%d,%f 和 其 他 类 似 的 定义 


符 ( 如 %d16 ) 


C=textscan(fid,'format',param,value,...) 
寺 的 转换 定义 符 如 表 10.9 所 示 。 
表 10.9 textscan 支持 的 转换 定义 符 ( 即 format') 


实际 意义 


读 到 第 一 个 界定 符 





%Nn,%Nd,%Nu%Nf 和 其 他 


类 似 的 定义 符 


读 N 位 (包括 小 数 点 )， 或 直到 第 一 个 定 界 符 为 止 。 先 遇 定 界 
符 ， 在 定 界 符 结束 读 ， 否 则 读 满 N 位 








由 %N.Df 开 头 的 定义 符 


%s 或 %q 
%Ns 或 %Nq 


%[abc] 
%N[abc] 
%["abc] 
%N["abc] 
9%c 

o%MNc 


读 N 位 (包括 小 数 点 )， 或 直到 第 一 个 定 界 符 为 止 。 先 遇 定 界 
符 ， 在 定 界 符 结束 读 ， 否 则 读 满 N 位 

读 到 第 一 个 定 界 符 

读 N 个 字符 , 或 直到 第 一 个 定 界 符 。 先 遇 到 定 界 符 , 在 定 界 符 
结束 读 

读 ， 直 到 遇见 第 一 个 未 指定 在 括号 中 的 字符 为 止 

读 N 个 字符 ， 或 直到 第 一 个 未 指定 在 括号 中 的 字符 为 止 

- 直 读 到 第 一 个 指定 在 括号 中 的 字符 为 止 

读 N 个 字符 ， 或 直到 第 一 个 指定 在 括号 中 的 字符 为 止 

读 一 个 字符 

读 N 个 字符 ， 包 括 定 界 符 


对 于 含有 字母 和 数字 混合 数据 的 文件 ， 使 用 textscan 和 textread 函数 都 可 以 输入 。 


textread 函数 的 调用 格式 


其 中 其 支持 的 转换 定义 符 如 





[A,B,C,…]F=textread(filename'format) 


[…]=textread(…, param',value) 


表 10.10 所 示 ， 参 数 / 值 对 表 如 表 10.11 所 示 。 


表 10.10 textread 函数 格式 转换 定义 符 


实际 意义 


读 文件 时 跳 过 与 此 相 匹配 的 字符 
读 带 符号 的 整数 








读 无 符号 的 整数 





H 空 线 间隔 或 定 界 符 分 隔 的 字 串 











H 双 引号 中 的 字 捉 ， 忽 略 引号 
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读 字符 ， 包 括 空 线 间 隔 
读 与 括号 中 字符 相 匹 配 的 字符 ， 直 到 遇 上 第 一 个 不 匹配 的 字符 为 止 
读 与 括号 中 字符 不 匹配 的 字符 

读 文件 时 忽略 被 * 指 定 的 字符 

读 字 段 ， 字 段 长 度 由 w 限定 。 读 浮 点 数 ， 可 写成 %w.pf， 这 时 的 w 表示 字 
段 长 度 ， 而 p 是 精度 











%["*] 
%[…] 
%*… 代 替 % 














%w 代替 % 


表 10.11 textread 函数 参数 / 值 对 








参 数 值 作 用 
\b 退 格 
\n 换行 
\r 回 车 
Nt 水 平 ab 
bufsize 正 整 数 定义 最 大 字 串 长 度 ， 用 字 节 表示 
commenstyle “| matlab % 是 MATLAB 的 注解 符 ， 读 数据 时 忽略 % 后 的 字符 
commenstyle “| shell 读数 据 时 忽略 # 后 的 字符 
commenstyle | c 读数 据 时 忽略 /* 和 Il*/ 之 间 的 字符 
commenstyle | c++ 读数 据 时 忽略 // 后 的 字符 
delimiter 1 个 或 多 个 字符 作为 字段 界定 符 ， 没 有 默认 值 
emptyvalue “| 双 精 度 值 为 空 单元 ( 空 字符 ) 指定 值 ， 默 认 是 0 
endofline 单个 字符 或 \rvn' 表示 行 结束 的 字符 ， 默 认 用 文件 上 的 
expchars 指数 符号 默认 是 eEdD 
headerlines ”| 正 整 数 读 文件 时 忽略 的 文件 头 的 行 数 
whilespace “| "，\bwnwNrNt 中 的 一 个 作为 空 线 间隔 的 字 串 ， 上 默认 是 \b\t 
textscan 和 textread 函数 之 间 有 所 区 别 。textscan 有 更 好 的 性 能 ， 特 别 适合 读 大 文件 。 但 它 在 
使 用 时 ,首先 要 打开 文件 , 一 旦 打开 文件 ,可 以 从 文件 的 任何 位 置 读 ,并且 只 要 不 关闭 文件 ,可 
以 从 上 次 操作 的 中 断 点 数据 ,而且 只 输出 一 个 单元 数组 , 不 必 给 每 个 被 读 字 段 指定 一 个 输 











出 参数 ; 而 textread 每 次 只 能 从 文件 的 开头 读 ， 并 且 不 需要 用 其 他 函数 打开 文件 ， 不 能 继续 读 。 
4. 输入 /输出 电子 表 数 据 
(1 ) 得 到 文件 的 有 关 信 息 。 

可 以 用 xlsfinfo 函数 确定 文件 是 否 为 可 读 的 Excel 电子 表 。 

(2 ) 将 数据 输出 到 文件 。 

[以 用 xlswrite 函数 将 MATLAB 工作 区 的 数据 输出 到 文件 的 任何 工作 表 和 工作 表 的 任何 位 





| 
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置 ， 其 调用 格式 : 
xlswrite( filename”,M sheet) 
其 中 : M 为 工作 区 中 被 输入 的 矩阵 , filename 为 电子 表 文 件 名 ,sheet 为 指定 的 工作 表 。 如果 sheet 
不 存在 ， 则 一 个 新 工作 表 被 加 到 工作 表 集 的 尾部 ; 如 果 sheet 是 一 个 大 于 工作 表 数 目的 索引 ， 则 
附加 一 些 空 工作 表 ， 直 到 工作 簿 中 的 表 数 目 等 于 指定 的 sheet 为 止 。 
(3 ) 从 文件 输入 数据 。 
xlsread 函数 可 以 从 Excel 电子 表 文 件 将 一 个 矩阵 输入 到 MATLAB 工作 区 。 可 以 从 文件 的 任 











何 候选 工作 表 、 表 的 任何 位 置 输入 数据 。 也 能 够 由 xlsread 打开 Excel 窗口 , 然后 交互 地 选择 工作 
表 和 被 读数 据 的 位 置 。 
xlsread 函数 的 调用 格式 : 
N=xlsread('filename' -1) Sg-1 为 在 Excel 窗口 打开 文件 的 标志 
N=xlsread ('filename', sheet) $ 读 工作 表 sheet 上 的 数据 


N=xlsread ('filename', sheet, 'range') gs 读 工作 表 sheet 上 指定 区 域 的 数据 
5. 低级 文件 输入 /输出 函数 


MATLAB 文件 IO 函数 ， 可 以 输入 /输出 数据 。 要 读 或 写 数 据 ， 需 要 执行 下 面 步骤 : 
(1 ) 使 用 fopen 函数 打开 文件 ,返回 文件 的 标识 符 , 标识 符 将 被 用 在 所 有 其 他 低级 文件 IO 
函数 中 。 
(2 ) 在 文件 上 进行 下 述 操作 : 
@ 使 用 fread 函数 读 二 进 制 数据 ; 
@ 使 用 fwrite 函数 写 二 进 制 数据 ; 
@ 使 用 fgets/fgetl 函数 从 文本 文件 逐 行 读 字 串 ; 
@ 使 用 fscanf 函数 读 格式 化 的 ASCII 数据 ; 
回 使 用 fprintf 函数 写 格式 化 的 ASCII 数据 ; 
(3 ) 使 用 felose 函数 关闭 文件 。 
一 旦 用 fopen 函数 打开 文件 ,MATLAB 利用 fseek 函数 维持 一 个 文件 位 置 指 针 ， 它 指示 文件 
上 的 特别 位 置 ， 此 函数 的 调用 格式 : 


status=fseek(fid,offset,origin) 


其 中 status 为 返回 值 , 0 操作 成 功 , 1 操作 失败 ; fid 为 文件 标识 符 ; offset 为 移动 方向 和 值 , offset>0 
向 前 移动 offset 个 字 节 ; offset = 0 不 移动 ; offset<0， 向 后 移动 offset 个 字 节 。 

fseek 函数 在 fid 指定 的 文件 上 依照 origin 给 出 的 参照 点 ， 相 对 移动 文件 指针 offset 个 字 节 。 
文件 上 的 字 节 编号 从 0 开始 ， 第 1 个 字 节 为 字 节 0， 以 此 类 推 , 第 个 字 节 为 字 节 n-1。 

ftell 函数 可 以 得 到 文件 指针 的 位 置 。 


255 


外 实战 大 数据 一 一 MATLAB 数据 挖掘 详解 与 实践 








256 


11s 


模糊 集 理 论 


实战 大 数据 一 一 MATLAB 数据 挖掘 详解 与 实践 


258 


由 L.A.Zadeh 提出 的 模糊 集合 理论 与 模糊 逻辑 ,就 是 采用 精确 的 方法 、 公 式 和 模型 来 度量 和 
处 理 模糊 、 信 息 不 完整 或 不 太 正 确 的 现象 与 规律 。 经 过 40 多 年 的 快速 发 展 ,模糊 理论 在 诸多 学 
科 与 工程 技术 领域 得 到 了 很 好 的 应 用 。 


11.1 模糊 集合 


模糊 系统 是 建立 在 自然 语言 基础 上 的 。 在 自然 语言 中 常 采用 一 些 模糊 概念 如 “大 约 " “左右” 
“温度 偏 高 ”等 来 表示 一 些 量化 指标 ， 如何 对 这 些 模糊 概念 进行 分 析 、 推 理 是 模糊 集合 与 模糊 逻 
辑 所 要 解决 的 问题 。 

模糊 集合 是 一 种 边界 不 分 明 的 集合 。 对 于 模糊 集合 , 一 个 元 素 可 以 既 属于 该 集合 又 不 属于 该 
集合 , 亦 此 亦 彼 , 边界 不 分 明 。 建 立 在 模糊 集合 基础 上 的 模糊 逻辑 ,任何 陈述 或 命题 的 真实 性 只 
是 一 定 程度 的 真实 性 。 


11.1.1 隶属 度 函数 

如 果 集合 工 包 含 了 所 有 的 事件 x, 4 是 其 中 的 一 个 子 集 ， 那 么 元 素 x 与 集合 工 的 关系 可 用 一 
个 特征 函数 来 描述 ， 这 个 函数 称 为 隶属 度 函数 yw)。 

对 于 经 典 的 数据 集合 理论 ， 若 x 包含 于 4 中 , 则 we9 取 值 1; 若 x 不 是 A 的 元 素 ， 则 p(w) 值 
为 0; 而 对 于 模糊 集合 而 言 ， 则 允许 隶属 度 函 数 可 取 [0，1] 上 的 任何 值 。 模 糊 集 常 被 归 一 化 到 区 
间 [0,1] 上， 模糊 集 的 隶属 度 函 数 既 可 离散 表示 ， 又 可 以 借助 于 函数 式 来 表示 。 

隶属 函数 的 表示 方法 大 致 有 三 种 : 

如 委 为 模糊 集 ， 一 般 情况 下 可 表示 为 

4= {pl) lu ed) 
如 果 忌 是 有 限 集 或 可 数 集 ， 可 表示 为 
A=D Hu) lu, 

此 时 式 子 的 右 端 并 非 代 表 分 式 求 和 , 它 仅 仅 是 一 种 符号 , 分 母 的 位 置 是 论 域 中 的 元 素 , 分子 位 置 
是 相应 元 素 的 隶属 度 。 当 某 一 元 素 的 隶属 度 为 0 时 ， 那 一 项 可 以 省 略 。 

或 表示 为 向 量 形式 

了 = (Ca HG) Kau,)) 

但 要 注意 ， 在 此 形式 中 ， 要 求 集合 中 各 元 素 的 顺序 已 确定 。 

如 果品 是 无 限 集 ， 则 可 以 表示 为 


4 CO 


同样 这 里 的 积分 号 不 是 通常 的 积分 含义 ， 只 是 表示 对 u 都 指定 了 相应 的 隶属 度 。 
隶属 度 函 数 可 以 是 任意 形状 的 曲线 , 取 什 么 形状 主要 取决 使 用 是 否 方便 、 简 单 、 快 速 和 有 效 ， 
唯一 的 约束 条 件 是 隶属 度 的 值 域 为 [0.1]。 
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模糊 系统 中 常用 的 隶属 度 函 数 有 11 种 ， 下 面 介绍 常见 的 几 种 。 
(1 ) 高 斯 型 。 该 函数 有 两 个 特征 参数 "和 ， 其 函数 形式 为 


Ge) 
M(x,0,c)=e 2 


两 个 高 斯 型 隶属 度 函 数 的 组 合 可 形成 双 侧 高 斯 型 隶属 度 函 数 。 
(2 ) 钟 形 隶 属 度 函数 。 该 函数 有 三 个 特征 参数 a、b 和 <。， 其 函数 形式 为 








(3 ) sigmoid 函数 型 隶属 度 函 数 。 该 函数 有 两 个 特征 参数 a 和 <， 其 函数 形式 为 


1 
x,4.b)=————— 
MH(%, 0,b) = Te 


(4 ) S 型 隶属 度 函数 。 该 函数 有 两 个 特征 参数 a、b， 其 函数 形式 与 sigmoid 函数 形式 相同 ， 


只 是 参数 a 和 4。 的 取 值 不 同 。 


统一 的 标准 。 隶属 函 数 的 确定 过 程 本 质 上 是 客观 的 , 但 又 允许 有 一 定 的 人 为 技巧 。 对 实际 问题 建 


(5 ) 梯 型 隶属 度 函数 。 该 函数 有 四 个 特征 参数 a、b、c 和 dg， 其 函数 形式 为 








0 xx 二 Qa 
= a 室 x 宇 b 
b-a 

M(x,a,b,c,d)=11 五 三 x 二 ec 
= c 宇 xd 
d-ec 
0 xd 


隶属 度 函 数 是 模糊 集合 赖 以 建立 的 基石 ， 要 确定 恰当 的 隶属 度 函 数 并 不 容易 ,迄今 仍 无 一 个 


立 一 个 隶属 度 函 数 需要 充分 了 解 描述 的 概念 ， 并 掌握 一 定 的 数学 技巧 。 


念 ; 


在 某 种 场合 ， 隶 属 度 可 以 采用 模糊 统计 的 方法 来 确定 : 
中 确定 论 域 UV， 如 年 龄 ; 
@ 确定 论 域 中 的 一 个 元 素 V6。， 如 年 龄 为 35 岁 的 人 ; 


@ 论 域 中 的 边界 可 变 的 普通 集合 A, 如 “年 轻 人 ”，A 联系 于 一 个 模糊 集合 及 相应 的 模糊 概 





@ 判断 条 件 。 即 对 普通 集合 A 判断 的 依据 条 件 。 它 联系 着 按 模 糊 概念 所 进行 的 划分 过 程 的 
全 部 主客 观 因素 ， 它 制约 着 边界 的 改变 。 例 如 不 同 的 实验 者 对 “年 龄 为 35 岁 的 人 ”的 理 


解 。 有 的 认为 是 年 轻 人 ， 而 有 的 人 则 认为 不 是 年 轻 人 。 


@ 模糊 统计 实验 .其 基本 要 求 是 在 每 一 次 实验 下 ,要 对 Uo 是 否 属于 A 做 出 一 个 确切 的 判断 ， 


做 次 实验 ， 就 可 以 算出 对 的 隶属 频率 : 
来 局 频率 = < 人 的 次 数 
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其 他 确定 隶属 度 函 数 的 方法 还 有 二 元 对 比 排序 法 、 推 进 法 和 专家 评分 法 等 。 


11.1.2 ”模糊 集运 算 


与 经 典 的 集合 理论 一 样 , 模糊 集 也 可 以 通过 一 定 的 规则 进行 运算 。 实 际 上 模糊 集 的 运算 是 逐 


点 对 隶属 度 作 相 应 的 运算 。 


1. 交集 ( 逻辑 与 ) 
两 模糊 集 的 交集 ANB， 为 两 隶属 度 ya(W) 和 ya(x) 的 最 小 者 
fana(s)= Ka) Nya) = min | waCDwa(n | 
2. 合集 ( 逻辑 或 ) 
两 模糊 集 的 合集 AUB， 为 两 隶属 度 ja(x) 和 pa(x) 的 最 大 者 


auBa(X)= a(x) V Ha(x) =max | ya(x)ua(%) | 


3. 补 集 ( 逻辑 非 ) 


信人 = 从 人 


4. 模糊 集 的 基 
模糊 集 的 基 为 隶属 度 函 数 的 积分 或 求 和 
cardA = > Ar) 


cardA = | L(x)dx 


论 域 VU 上 的 模糊 集 A、B、C， 空 集 用 名 表示， 模糊 集 的 并 、 交 、 补 运算 具有 以 下 的 性 质 : 
。 军 等 律 4U4=4 4ANM4=4 

。 交换 律 4UB=BU4 4nB=Bna4d 

。 ”结合 律 : (4UB)UC=AU(BUC) (4nNBNC=AN(BNOC) 

。 分 配 律 : 4U(BUC)=(4UB)N(4UC) 4AN(B8NC)=(4NB)U(4ANC) 

。 ”吸收 律 : C4nB)U4=4 (4UB)NMA=4 

。 同一 律 : 4UU=U ANU=4 4UZ=4 ANG=@ 

。 ”复原 律 : A=4 

。 ”对 偶 律 : 4UB=A4NB 4mB=AUB 








11.1.3 ”入 截 集 


因 








模糊 集 的 范围 是 不 能 明确 画 出 的 。 但 在 实际 应 用 中 ， 往 往 需 要 对 模糊 现象 做 出 明确 的 判定 。 


此 ， 需 要 建立 模糊 集 与 经 典 集合 的 关系 。 截 集 概念 即 描述 了 这 种 转换 关系 。 
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设 4EF (U), 对 任意 Xe[0,1], 集合 
4={ulueU.W(u) 
称 为 集合 4 的 4 截 集 ， 4 称 为 辣 值 或 置信 水 平 。 


由 定义 可 知 ，4 集合 为 模糊 集 ，4; 为 普通 集 ， 通 过 阔 值 实现 了 模糊 集 到 普通 集 的 转换 。 例 
如 表 11.1 就 为 在 不 同 阔 值 情况 下 ， 模 糊 集 与 截 集 间 的 关系 。 





表 11.1 模糊 集 与 截 集 的 关系 








编 号 年 龄 Ao22(U) 
Si 20 1 
S: 27 0.8621 和 
Sy 29 0.6098 1 


11.2 ”模糊 关系 


一 般 情况 下 , 对 于 有 限 论 域 0= fo zj， 天 fwvw va}, 称 UxV 上 的 模糊 集 RR 为 从 U 
到 亚 的 一 个 模糊 关系 , 即 对 V(x, y)e U xV ,都 指定 它 对 的 隶属 度 jyg(uy) 为 : Lx :UxV 二 [0,1]。 
U 与 V 之 间 的 模糊 关系 还 可 用 行 m 列 的 模糊 矩阵 RR 表示 


R= (ry) wm 








其 中 : rijayg (vivj )。 
设 R, 5S 皆 为 m 行列 的 模糊 矩阵 ， 则 可 通过 模糊 矩阵 表示 RR 与 8 的 并 、 交 、 补 及 4 截 集 : 
RUS= (5 Vsy) 
RMS=(n, 人 sy) 
R=(1-n) 
1 
R=(An) Anr, - ly <1 
根据 模糊 关系 的 定义 , 可 以 得 到 模糊 关系 的 合成 运算 , 即 由 @ 和 构成 的 新 的 模糊 关系 QR 
称 为 合成 模糊 关系 


Hocg (Us W) = VKHolusv) A Helv,m)) 


当 U、V、 到 均 为 有 限 论 域 时 ， 即 U= {ww smn}, 大 和 2pv2, wn};W={Wwisw2, wn} ， Qi 
参 S=C 叹 均 可 表示 为 矩阵 形式 


2 = (Gy Yee = (rx nx = sit) 
其 中 :54 = Yqy rn)。 
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如 果 呈 满足 以 下 条 件 ， 则 称 及 为 论 域 UU 上 的 一 个 模糊 等 价 关 系 。 
(1) 自 反 性 , 即 R cI 
(2 ) 对 称 性 , 即 R” =R 
(3 ) 传递 性 ,， 即 ReRCR 
如 果 玉 满足 以 下 条 件 ， 则 称 驴 为 忆 上 的 模糊 相似 关系 。 
(1) 自发 性 , 即 RcI 
(2) 对 称 性 ， 即 R =R 
从 以 上 的 定义 可 看 出 ,为 了 从 模糊 相似 关系 得 到 模糊 等 价 关系 ,可 将 模糊 相似 矩阵 自 乘 ,， 即 
RoRAR",R 。R AR ,直到 RW = 及 。 至 此 ， 必 ' 便 是 模糊 等 价 和 矩阵 ， 它 所 对 应 的 模糊 关系 便 为 
模糊 等 价 关系 。 
介绍 等 价 关系 的 目的 是 为 了 将 集合 划分 若干 等 价 类 。 
设 且 是 论 域 U 上 的 等 价 关 系 ,4 从 1 下降 到 0， 依次 截 得 等 价 关 系 R，， 它 们 都 将 UU 做 了 分 
类 。 由 于 满足 条 件 
AOR, OR 
因此 ，Vu,veU , 若 v 与 ”相对 于 Ra 来 说 是 属于 同一 类 ，(wv) e Rs 则 (wv) e Bs 即 
与 v 相 对 于 Rs 来 说 也 属于 同一 类 ,这 意味 着 由 Raz 所 得 到 的 分 类 是 由 Ra 所 得 到 的 分 类 的 加 粗 。 
当 4 从 1 下降 到 0 时 ， 分 类 由 细 变 粗 ， 逐 渐 归 并 ， 形 成 一 个 分 级 聚 类 树 。 
模糊 关系 主要 用 于 模糊 模式 识别 。 模 糊 模式 识别 大 致 有 两 种 方法 : 一 种 是 直接 方法 , 按 “ 最 
大 隶属 原则 ”进行 归 类 ; 另 一 种 是 阔 值 原则 。 


1. 最 大 隶属 度 原 则 


直接 由 计算 样本 的 隶属 度 来 判断 其 归属 的 方法 , 即 为 模式 识别 的 最 大 隶属 度 原 则 。 这 种 分 类 
方式 的 效果 十 分 依赖 于 建立 已 知 模式 类 隶属 函数 的 技巧 。 

设 41,42…,4mEF(U), x 是 UU 中 的 一 个 元 素 

若 J (X)> p(X) (F122 沦 ) 


则 x 素 属 于 ,即将 x 判 属于 第 1 类。 
2. 阅 值 原则 
设 44…,dnEF (UU), x 是 UU 中 的 一 个 元 素 。 取 定 水 平 ae[0,1], 车 p(w) <a， 则 不 能 


识别 ; 车 存在 bo… 直 ,使 p40 之 a ,j=12,… 玉 则 x 隶属 于 但 4 。 


11.3 ”模糊 聚 类 


模糊 聚 类 分 析 是 指 一 定 的 要 求 和 规律 将 事物 进行 分 类 的 一 种 数学 方法 , 由 于 现实 的 分 类 往往 
伴随 着 模糊 性 ， 所 以 用 模糊 理论 进行 聚 类 会 显得 更 自然 ， 更 符合 客观 实际 。 
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模糊 聚 类 方法 有 多 种 ， 例 如 传递 闭 包 法 、 最 大 树 法 、 编 网 法 、 模 糊 有 -均值 方法 等 。 它 们 能 
从 原始 数据 中 提取 数据 ， 对 特征 进行 优化 选择 和 降 维 ， 已 广泛 应 用 于 经 济 学 、 生 物 学 、 气 象 学 、 
信息 科学 等 许多 领域 。 

设 工 = {x2,… xm} 为 被 分 类 对 象 的 全 体 ， 每 一 对 象 六 由 一 组 数据 faxp, -xy 表征 ， 即 有 m 
个 分 量 ( 即 m 个 特征 )。 对 象 之 间 的 关系 即 为 特征 向 量 之 间 的 关系 ， 也 即 为 R" 空间 中 元 素 之 间 
的 关系 ， 聚 类 分 析 的 基本 思想 是 把 R" 空间 中 具有 某 种 特殊 关系 的 对 象 聚合 成 一 类 。 


11.3.1 数据 标准 化 


在 计算 距离 与 相关 系数 时 , 一 般 需 先 对 对 象 的 特征 量 进行 数据 标准 化 , 以 消去 量 纲 对 分 类 的 
影响 。 常 用 的 方法 如 下 。 


1. 标准 差 标准 化 


2. 极 差 标准 化 





其 中 :5 为 极 差 ，S, = max {wy}- min {wy} 。 


1<i<n 


11.3.2 ”相似 系数 和 距离 


在 聚 类 分 析 中 ， 最 重要 的 是 定义 聚 类 关系 ， 常 见 的 是 描述 R” 空间 中 点 与 点 关系 的 量 ， 有 距 
离 与 相似 系数 。 如 果 将 对 象 工 = {xix2,-… ,xw} 看 成 是 R" 空间 中 的 n 个 点 ， 从 几何 的 角度 看 ， 可 以 
定义 这 些 点 之 间 的 距离 d(xig) 与 相似 系数 rj。 


1. 数量 积 法 





三 
n=]1le Ee 
a 
rs 文江 庆 
其 中 : M = max 2 xx 
ek 


显然 方 E[0.1]， 如 果 方 出 现 负 值 ， 可 以 用 下 面 的 方法 将 其 调整 为 非 负 值 。 
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sn j 
@ 令 = 一 ， 则 方 s[0.] ; 





如 果 广 出现 负 值 ， 同 样 要 将 其 调整 为 非 负 值 。 


3. 相关 系数 法 


Ee x (ce —x,) 
; - 


vy = 
Ee —x,) (Ee —x,) 
大 =1 





一 m 二 m 
其 中 : = Dx ， x) = xo 
ti ti 


4. 最 大 最 小 法 


5. 算术 平均 法 


k=l 


Te + x 


k=l 


23 人 Xx ) 


6. 当 xiw i 之 0， 可 以 采用 几何 平均 最 小 法 


264 


第 11 章 


7. 绝对 值 指数 法 
-ps | 
8. 指数 相似 系数 法 
1 &, C7 
可 = 
需要 适当 选择 st。 
9. 绝对 值 倒数 法 
Lizj 
和 二 二 元 ijz/ 
| Xx — Xt | 
天 =1 
需要 适当 敌 选择 ， 使 方 在 [0.1] 中 且 分 散 。 
10. 绝对 值 减 数 法 
中 三 二 Sy kX 
大 =1 


要 适当 c, 使 ;在 [0,1] 中 是 分 散 。 
11. 贴近 法 
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如 果 特 征 x，xE[0,1] (本 1,2,…,m )， 则 x#、a 可 以 看 作 模 糊 向 量 ， 并 以 它们 的 贴近 度 为 


其 相似 程度 。 


贴近 度 是 用 来 衡量 两 个 模糊 集 4 和 8 的 接近 程度 ， 用 (4，28B ) 表示 。 贴 近 度 越 大 ， 


这 两 者 越 接近 。 常 用 的 贴近 度 有 以 下 三 种 : 
(1) 格 贴近 度 。 


1. i=jJ 
[NGss) = CA) A A ra)i#] 
(2 ) 距离 贴近 度 。 


=1—cd"(x,x)) 


表明 
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其 中 : ce、a 为 适当 选择 参数 值 ，d) 为 模糊 集 各 种 距离 。 
。 ”闵可夫 斯 基 距 离 
do)p) = Dlr Py 
当 p-1 时 ， 为 海 明 距离 
dusx)0= x x | 
当 p=2 时 ， 为 Euclidean 距离 
jx)= 名 了 
。 “ 切 比 雪夫 距离 | 
d(x,x)) =v, | 区 一 zk 


(3 ) 其 他 贴近 度 。 


Cu 和 Axi) 
有 (7) = 一 一 一 
(xx VX) 
kl 
2 (xx 人 Xp) 
nm,(%,X)) = 一 站 
D+ Dx 
tl tl 
11.3.3 ”模糊 聚 类 分 析 
模糊 聚 类 分 析 可 分 为 如 下 三 步 。 
1. 建立 模糊 相似 矩阵 
建立 模糊 相似 矩阵 是 实现 模糊 聚 类 的 关键 。 设 S= {X 2 地 全 是 待 聚 类 的 全 部 样本 ， 每 
一 个 样本 都 由 个 特征 表示 


Xi, x Xn) 
第 一 步 是 求 样本 集中 任意 两 个 样本 盏 与 五 之 间 的 相似 系数 方 ， 进 而 构造 模糊 相似 矩阵 
R=(ry)wew。 求 相似 系数 的 方法 很 多 ， 可 以 根据 需要 选择 其 中 的 一 种 。 
2. 将 模糊 相似 关系 变换 为 模糊 等 价 关系 


由 第 一 步 建立 的 模糊 和 矩阵 , 一 般 情况 下 是 模糊 相似 甜 阵 ， 即 只 满足 对 称 性 和 自 反 性 , 不 满足 
传递 性 ， 还 需要 将 其 改造 成 模糊 等 价 矩 阵 。 
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3. 模糊 聚 类 
对 求 得 的 模糊 等 价 和 矩阵 求 - 截 集 ， 就 可 求 得 在 一 定 条 件 下 的 分 类 情况 。 
11.3.4 ”模糊 K- 均 值 聚 类 


模糊 聚 类 算法 常用 的 方法 是 模糊 天- 均值 算法 ( Fuzzy K-means, FKM ), 该 算法 是 在 传统 KK- 
均值 算法 中 应 用 了 模糊 技术 。 

FKM 算法 把 个 向 量 x%, 庆 1,2,…,n, 分 成 个 模糊 集 , 并 求 得 每 个 徐 的 聚 类 中 心 , 使 下 述 
的 目标 函数 达到 最 小 





n Kk 
J (u,v) = > 


k=l i=l 





其 中 : Uj E[oH Vik: Dun =1,Vk:0< 到 <1Vid(xkty)=| xx 一 六 EF ，m 为 模糊 权重 指数 ， 
和 1 


i=l 


1<m<+wm， 肾 类 中 心 ww 和 隶属 度 wt 的 计算 如 下 : 





i 
Y= i,2, ,Kk 

ee 

i 

1 2 

We = i = ,2 K,k=1,2,,n 

pe 

d 


J-1 A 
KFM 算法 计算 简单 而 且 运 算 速度 快 具有 比较 直观 的 几何 意义 , 但 与 算法 一 样 ， 只 用 类 中 
心 表示 类 的 方法 只 适用 发 现 球状 类 型 的 徐 ， 在 很 多 情况 下 ， 算 法 对 噪声 数据 敏感 。 


11.4 基于 MATLAB 的 模糊 集 处 理 技术 


在 MATLAB 中 ， 可 以 利用 Fuzzy Logic Toolbox 工具 箱 处 理 有 关 模 糊 集 理论 的 问题 。 

例 3.1 在 模糊 系统 的 应 用 研究 中 ， 构 建 隶属 度 函 数 是 一 个 比较 关键 的 步 又 。 隶 属 度 函 数 的 
构建 可 以 有 多 种 方法 ， 如 例 化 法 、 统 计 法 、 样 板 法 等 。 但 必须 指出 ,迄今 还 没有 一 个 一 般 的 、 普 
遍 的 法 则 ， 其 构建 多 少 还 带 有 主观 性 和 经 验 性 的 成 分 。 

在 环境 保护 中 , 环境 质量 评价 是 一 个 重要 的 方面 , 它 是 一 个 模糊 评判 过程 。 试 构建 各 级 标准 
水 的 隶属 度 函 数 。 

解 : 

根据 GB 3838 一 1988《 地 面 水 环境 质量 标准 》， 一般 将 水 质 污染 程度 分 为 五 类 ， 即 


Be TL TIL I VI 

其 中 I、I、IHIE、IV 和 V 分 级 标准 采用 《地 面 水 环境 质量 标准 》 中 的 值 ， 据 此 ， 可 构成 以 下 
的 隶属 度 函 数 ( 以 三 级 水 中 的 NH3 -N 为 例 )。 首 先 编写 一 个 隶属 度 函 数 表 达 式 的 M 文件 
NH3_Nmtf: 
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function y=NH 3mf (x,params) 

a =params (1); b =params (2); c =params (3); 

$a 为 二 级 标准 值 ,b 为 三 级 标准 值 , c 为 四 级 标准 值 

y = zeros (5ize (x)); 

index = find (x==b) % 当 测 量 值 等 于 此 级 标准 值 时 , y=1 

yY(index) =ones (size (index)); 

index = find(a > =x | x >= c); % 当 测 量 值 小 于 二 级 标准 或 大 于 四 级 标准 时 , y=0 

y(index) = zeros (size (index)); 

index = find(a< x & x < b); $ 当 测量 值 小 于 三 级 标准 、 大 于 二 级 标准 时 , y= (x-a) / (b-a) 
y(index) = (x(index)-a)/(b-a); 

index = find(x > bgx<c); gs 当 测 量 值 大 于 三 级 标准 、 小 于 四 级 标准 时 , y= (x-c) / (b-c) 
y(index) = (x(index)-c)/(b-c); 


在 MATLAB 工作 空间 输入 以 下 命令 : 
>>x=0:0.01:3;water=newfis ('water') ;water=addvar (water, 'input', 'three wate 


rnt SI 
>>mfedit (water); s* 编 辑 隶 属 度 函 数 


打开 隶属 度 函 数 编辑 器 , 选择 File 中 的 import， 选 中 From Workspace…， 打开 load FIS from 
workspace 对 话 框 ,在 其 Workspace variable 栏 中 输入 water, 单 击 OK 关闭 对 话 框 ,并 打开 FIS Edit 
对 话 框 ， 在 其 Edit 菜单 中 选择 Membership Functions， 打 开 Membership Functions Edit 对 话 框 ， 
选择 其 Edit 菜单 中 的 Add Custom MF…, 打开 Custom Membership Function 对 话 框 , 在 MF name 
栏 中 输入 隶属 函数 名 字 ( 在 此 为 al ), 在 M-line function name 栏 中 输入 NH_3mf, 在 parameter list 
栏 中 输入 [0.5 1 1.5] ( 此 3 个 参数 为 各 级 标准 临界 值 )， 单 击 OK， 便 可 以 得 到 图 11.1 所 示 的 三 级 














图 11.1 水 质 三 级 标准 中 "硝酸 盐 -NN 的 隶属 度 函 数 
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例 3.2 为 了 研究 气温 与 降水 的 关系 ， 定 义 了 如 下 的 4 个 模糊 集 : 
Ai: 2 月 份 最 低 气温 ( 科 5YC ) 的 天 数 ; 
As: 冬季 极端 最 低 气温 ; 
As: 极端 最 低 气 温 出 现时 间 ; 
A4: 冬季 平均 气温 。 
假设 4 个 模糊 集 的 隶属 度 函 数 分 别 如 下 : 











0, x<4 
人 (9= [| 本 
0， x<-12 
/= Esl Ee 
0 x<30 
太 的 = 二 30<x<60 
x 过 60 
网 XxX3 
fa,(x)= 1- 9 
ly x 3.6 


根据 以 上 这 4 个 隶属 度 函 数 ， 构 建 表示 冬季 低温 时 间 “ 长 "、 冬 季 气 温 “ 低 ”和 冬季 “ 冻 大 ” 
程度 的 模糊 集 隶 属 度 函 数 。 


解 : 

根据 题 中 给 定 的 4 个 模糊 集 ， 可 求 出 表示 冬季 低温 时 间 “ 长 ”的 模糊 集 
B=AiUAs 

相应 的 隶属 度 函 数 


fAiuAsCO)=max | haAi(Cx),HaaCo | 
表示 冬季 气温 “ 低 ” 的 模糊 集 
C=AsUAs 





相应 的 隶属 度 函 数 


fazuas(X)=max | Hai(Cs),HaaGs) | 
表示 冬季 “ 冻 大 ”程度 的 模糊 集 
E=BNC 





相应 的 隶属 度 函 数 
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fanc(X)=min | ka(x),uc(x) 
据 此 ， 可 画 出 图 11.3 所 示 的 这 些 模糊 集 的 隶属 度 函 数 。 
1 1 1 
oa [oo 轩 De 
06 中 os co 人 ac9 
O04 04 人 
02 oz 02 
on 中 ioo Boo 吕 ioo fo a ioo 
1 1oos 1 
o8 1 sc oa 
0D6 As 二 Sa 06 act 
Da 099 Da 
o2 Pses oz 
3 加 Tod 号 05 加 100 oo © Too 


图 11. 3 各 模糊 集 的 隶属 度 函 数 
从 此 例 可 看 出 ， 可 以 利用 模糊 运算 规则 ， 进 行 “修饰 词 ”的 运算 而 得 到 “很 大 ”“ 很 长 ”等 
模糊 集 的 隶属 度 函数 。 例 如 设 隶 属 度 函 数 为 Kx)， 则 : 
很 高 的 隶属 度 函 数 为 : F(x) 
有 点 高 的 隶属 度 函数 为 : Po 
低 的 隶属 度 函 数 为 : 1 -fx) 
很 低 的 隶属 度 函 数 为 : (1 -Ax)》 
有 点 低 的 隶属 度 函 数 为 : (1 /oO 
中 等 的 隶属 度 函 数 为 : min{ fAx)，1 一 Ax)} 
例 3.3 ”模糊 聚 类 可 用 于 目标 识别 ,在 MATLAB 中 ， 模糊 c- 均 值 聚 类 函数 为 FCM。 
设 以 下 为 新 疆 10 个 地 区 的 集合 : = [1.2,3,….]， 其 中 1 为 阿勒泰 、2 为 塔 城 、3 为 伊 宁 、4 为 昌 
、5 为 奇 台 、6 为 阿克苏 、7 为 库 车 、8 为 喀什 、9 为 和 田 、10 为 吐鲁番 。 
根据 专业 知识 和 实践 经 验 ， 选 取 以 下 影响 玉米 生长 的 主要 因素 : 
x 过 10C 积 温 ( 即 一 年 中 不 小 于 10'C 的 日 平均 温度 累积 ); 
2 加 :无霜期 ; 
3; 6~8 月 平均 气温 ; 
x4: 5~9 月 降水 量 
这 些 因子 的 实际 观测 值 如 表 11.3 所 示 。 
表 11.3 玉米 生长 的 主要 影响 因素 





下 
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续 表 










4256.3 





4348.8 





5378.3 


请 对 后 9 个 玉米 种 植 地 区 进行 分 类 ， 并 求 第 1 地 区 属于 哪 一 类 。 
解 : 
>>1oad mydata.dat;yl=mean (x) ;y2=std (x); 
=[ (zx(:,1)-y1(1))/y2(1) (x(:,2)-y1(2))/y2(2) (x(:,3)-y1(3))/y2(3) (x(:,4)-y1(4))/y2(4)]; 
$ 对 数据 归 一 化 处 理 
>>[center,U,obj fcn]=fcm(x(2:9,:),3); % 按 南 疆 、 北 疆 及 吐鲁番 三 个 地 区 


>>maxU=max (U) 7 


>>indexl=find(U(1, :)==-maxU) ; Index2=find(U(2, :)=—maxU) ; index3=find (U (3, :) =—maxU); 


>>x (ingex1, 1); $ 第 6、7、8、9 个 数据 即 南 疆 地 区 为 一 类 
>>x (index2,1) $ 显 示 为 第 10 个 数据 即 吐鲁番 单独 为 一 类 
>>x (index3,1) $ 第 2、3、4、5 个 数据 即 北 疆 地 区 为 一 类 
>>x1=[ -1.2823 -1.2026 -0.8170 0.3154]; ”5 新 目标 值 

>>e=ones (3,1)*x1; sg 使 新 数据 维 数 与 分 类 值 相等 

>>f= (center-e) "7 s 新 数据 与 各 聚 类 中 心 的 值 

SEE Sim(0E 2 $ 最 小 二 乘法 


>>[minl, index]=min (ff); 
>>disp ([' 新 目标 为 第 ', num2str (index), ' 类 ']) 
新 目标 为 第 3 类 ， 即 归纳 于 北 疆 地 区 。 
例 3.4 对 例 3.3 的 数据 采用 模糊 减法 聚 类 。 
解 : 
>>1oad mydata.dat;yl=mean (x) ;y2=stqd (x); 
>>x=[(z(:,1)-y1(1))/y2(1) (x(:,2)-y1(2))/y2(2) (x(:,3)-y1(3))/y2(3) (x(:,4)-y1(4))/y2(4)]; 





>>figure,hold on;>>plot (x(:,1),x(:,2),'+') s 用 二 维 图 近似 表示 分 类 情况 
>>radii=0.3; 半径 值 
>>[c,s]=subclust (x, radii); 圆圈 处 代表 聚 类 中 心 
>>radii=0.5; [c,s]=subclust (x, radii); $8 五 角 星 处 代表 聚 类 中 心 


>>plot (c(:,1),c(:,2),'kpentagram', 'markersize',15, 'LineWidth',1.5) 


rp 
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从 图 11.4 可 看 出 ， 当 半径 为 0.3 时 得 到 8 个 聚 类 中 心 , 而 为 0.5 时 , 只 得 到 了 4 个 聚 类 中 心 。 
模糊 减法 聚 类 
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11. 4 模糊 减法 聚 类 结果 (radii=0.3 and 0.5) 


例 3.5 某 地 区 1993 一 2000 年 1 月 份 水 环境 测量 值 及 其 相应 的 标准 值 如 表 11.4 和 表 11.5 所 
示 ， 试 对 该 地 区 该 时 期 的 水 环境 质量 进行 模糊 评价 。 
表 11.4 各 级 环境 标准 指标 值 


表 11.5 该 地 区 水 环境 各 指标 的 测量 值 





























序 号 溶解 氧 NHs 一 N 挥发 栈 
1993 10.2 1.16 0.0 
1994 9.2 2.33 0.004 
1995 8.0 0.23 0.004 
1996 10.3 0.34 0.0 
1997 5.8 3.91 0.031 
1998 3.2 6.88 0.00 
1999 22 0.99 0.006 
2000 7.4 3.67 0.0 

解 : 


首先 根据 表 11.4 确定 各 级 的 隶属 度 函 数 。 以 溶解 氧 为 例 ， 其 一 、 二 级 隶属 度 为 : 
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0 x<6 0 三 5 或 x 宇 7.5 
X 一 6 7.5—x 
= 6<x<7.5 二 = 6 x<7.5 
万 CD 本 万 (9 本 
Ss 3 5<x<6 
6-5 


采用 类 似 的 方法 建立 其 余 各 级 的 隶属 度 的 函数 。 

然后 对 每 一 个 指标 值 进行 单 因素 评价 ， 得 到 综合 评判 矩阵 R。 

再 确定 因素 重要 程度 模糊 集 即 每 项 指标 的 权重 。 权 重 可 以 用 下 式 计算 

G 
W=(6, /ss| 

其 中 : ci 是 测定 值 ，5; 是 某 项 指标 的 各 分 级 指标 的 平均 值 。 需 要 注意 的 是 ， 因 为 溶解 氧 的 值 越 大 
越 好 ， 所 以 权重 取 静 的 倒数 。 得 到 各 指标 重要 程度 的 模糊 集 A。 

最 后 选用 模型 M ( 八 ，V )， 得 模糊 评价 集 : B =4*R 

根据 计算 结果 便 可 以 知道 评价 结果 。 


>>1oad x; m=size(x,1); 




















>> for k=l1:m;xl1=x(k, :) ;y=water mu(x1);yl (kK,:)=fuzzmul(y(:,end)',y(:,1:end-1));end 


>> yl 
yl =0.1841 0.2689 0.4499 0.3200 0 $% 三 级 
O01120 0.0368 0.0368 052992 0.4957 $% 五 级 
0.1962 0.1850 0.0561 0.4881 0.4000 sg 四 级 
0.3534 0.2557 0 0 0 $ 一 级 
0 0.0978 0s1337 0-1572 0.4581 $ 五 级 
0 0 0.1069 0.1236 0.5622 $ 五 级 
0.1680 0.1488 0.2645 0.3493 0.1500 sg 四 级 
0.1027 0.1005 0.1005 0.2207 0.5761 $ 五 级 


例 3.6 逼近 未 知 的 非 性 函数 有 许多 方法 ， 如 多 项 式 逼 近 、 指 数 函 数 逼 近 、 人 工 神 经 网 络 逼 
近 等 。 以 模糊 逻辑 系统 为 基础 的 模糊 模型 也 可 用 于 非 线性 动态 的 建 模 , 并 显示 出 优良 的 性 能 。 利 
模糊 推理 系统 对 非 线性 函数 ,Ko)=2ersin(o) 进 行 逼近 。 

解 : 

设 定 输入 x 的 范围 为 [0.10]， 并 将 它 模糊 分 割 成 5 个 区 ， 即 设 定 一 个 隶属 度 函 数 ， 其 类 型 采 
用 广义 的 钟 形 函数 ， 则 : 

>>x=[0:0.1:10] ';y=2*exp (-X) .*sin (x) ;data=[x y]; 























>>mf type="'gbellmf'; 名 训练 选项 
>>mf_ n=5; 
>>fisl=genfisl (data,mf n,mf type); $ 产 生 FIS 结构 的 初 值 
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>>epoch=50; errorgoal=0; step=0.01; $ 训 练 参 数 
>>trnopt=[epoch errorgoal step NaN NaN];disOpt=[1 1 1 1];chkData=[]; 
>>[fis2,error, st,fis3,e2]=anfis (data, fisl,trnopt, disOpt, chkData); 
>>xx=data(:,1);yy=evalfis (xx, fis2); $s 求 模拟 输出 值 
>>rmse=norm(yy-data(:,2))/sqrt (size (xx,1)); $% 求 均 方 误差 


图 11.5 为 训练 结果 。 





























训练 前 的 隶属 度 函 数 训练 后 的 隶属 度 函 数 

1 外 ”一 
08 08 
06 05 
04 04 
02 \ 02 / W 

0 0 

0 5 10 0 5 1 
fx) 及 FIs 模拟 输出 训练 过 程 误差 
08 om 
06 
04 a 
02 
oo ss 
A 

0 5 0 m0 看 加 Ey 


图 11.5 函数 逼近 的 ANFIS 训练 结果 
例 3.7 在 利用 genfisl 逼近 非 线性 系统 时 ， 当 数据 维 数 增加 ,很 明显 计算 量 将 大 大 增多 , 此 
时 可 利用 genfis2 产生 FIS 初始 结构 。 如 有 一 个 故障 诊断 系统 ， 其 故障 编码 为 表 11.6 所 示 。 请 对 
此 系统 进行 模拟 逼近 。 
表 11.6 测试 结果 


故障 序号 故障 编码 








3 10000 01000 
4 11000 00100 
5 11100 00010 
6 00001 





解 : 
用 前 5 个 数据 进行 训练 ， 最 后 一 个 数据 用 于 检验 : 
>2X n= T1170 T000100 .001100 0 100] 
六 x out=["00000"7 "10000"; "01000";"00100';"00010'];x out=bin2gdec (x out) ;data=[x in x out]; 
>>sanfis 格式 只 允许 1 列 输出 ， 将 故障 编码 改 为 十 进 制 
>>fismat=genfis2(x in,x out,0.5,minmax(data') '); 
>>epoch=50; errorgoal=0; step=0.01; $ 训 练 参 数 


>>trnopt=[epoch errorgoal step NaN NaN];disOpt=[1 1 1 1];chkData=[]; 
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>>[fis2,error, st, fis3,e2]=anfis (data, fismat, trnopt, disOpt, chkData); 
>>x1=[1 1 1 1 0];yy=evalfis (x1, fis2); 


YY =1.0000 

>>dec2bin('yy') $ 显 示 四 位 ， 前 二 位 为 补 位 
ans =110001 

即 故 障 编码 为 00001 


例 3.8 考虑 煤炭 按 成 因 分 类 的 模糊 识别 问题 。 根据 成 因 可 将 煤炭 分 为 三 大 类 , 即 无 烟煤 Al、 
烟煤 A 和 宰 煤 As。 设 论 域 7 为 所 有 煤 种 的 集合 ， 无 烟煤 A、 烟 煤 A 和 神 煤 As 是 U 上 的 模糊 
子 集 ， 对 于 某 一 给 定 的 具体 煤 种 wx， 试 判断 其 归属 。 所 用 数据 如 表 11.7 所 示 。 
表 11.7 各 个 煤 样 特性 指标 的 测量 值 





























煤 样 样 | 序 特 性 指 标 ( 吃 
本 分 类 | 镜 质 | 丝 质 所 壳 质 | 平均 最 大 
及 编号 | 三 | 了 Sane ms me 树脂 体 | 反射 率 
1 | 92.21 0.00 0.00 4.92 
无 烟煤 2 | 0.00 0.00 3.98 
3 | 92.63 | 074 | 0.00 0.00 4.12 
4 93.01 . 0.00 0.00 6.05 
5 93.01 0.00 0.00 4.50 
平均 值 92.68 0.00 0.00 4.71 
6 84.62 4.10 12.50 0.90 
84.53 11.3 | 11.00 0.85 
烟煤 8 83.82 7.40 4.50 0.93 
(A:) 3.20 7.80 0.83 
10 5.00 4.10 0.84 
11 7.80 4.30 0.71 
平均 值 6.46 7.36 0.84 
12 3.12 3.73 0.30 
13 2.80 3.70 0.31 
14 3.00 3.60 032 
15 2.94 Ee 0.33 
16 77 3.54 0.32 
平均 值 2.92 3.55 0.31 
解 : 





在 模糊 模式 识别 中 ， 构 造 模糊 模式 的 模糊 函数 是 其 关键 和 难点 。 下 面 介绍 常用 的 样板 法 。 
(1 ) 设 器 为 待 识别 对 象 全体 的 集合 , 41,42,… ,4y 为 U 上 p 个 模糊 模式 , 每 一 个 识别 对 象 vE U 
的 特性 指标 向 量 为 Gsw2,… im)。 
从 模糊 模式 4 年 中 选 出 个 右 样 板 ， 设 为 
qj-(ayvap, am) (E12 p12,…, 同 
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式 中 : a 表示 第 i 个 模糊 模式 4: 中 的 第 j 个 样板 的 特性 指标 向 量 ; oa 表示 第 i 个 模糊 模式 4 中 
的 第 j 个 样板 的 第 个 特性 指标 的 实测 数据 。 
(2 ) 计算 模糊 模式 4 中 的 右 个 特性 指标 向 量 aj(i=1,2,…,p; 广 1,2,…, 局 的 平均 值 w， 即 
a a (an:ap va) 


式 中 ; a 二 六 mw 大 =12. 


厂 1 


称 a; 为 模糊 模式 4; 的 均值 样板 。 
(3 ) 计算 模糊 模式 4; 的 隶属 函数 
计算 识别 对 象 w=(iww2,… ,um) 与 均值 样板 a, = (an,q,…,a) 之 间 的 距离 qu,q?), 如 取 欧 氏 距 


离 , 有 : di(wa)=(S a) i125,p 
J=l 
令 D=max{d(u,a),d(u,a,) -das) 


则 模糊 模式 的 隶属 函数 为 ; LO- 2 


根据 以 上 所 述 ， 计 算 各 模式 的 隶属 度 值 过 程 如 下 。 

(1) 用 mean 函数 求 平 均值 ， 即 每 类 的 中 心 。 

(2 ) 计算 待 识别 煤 样 与 均值 的 距离 ( 即 与 每 类 的 距离 ), 可 以 采用 各 种 距离 , 如 用 欧 氏 距离 ， 
则 可 以 用 norm 函数 计算 。 


10 10 10 = 
dl 0) = Day dd) = BY, do) = -oy 
FA J=l j=l 


令 吃 = qi(u,qa)+q,(u,b)+q,(u,c) ， 则 可 得 到 三 种 类 型 煤 的 隶属 函数 : 


= di(u, 0) = 证 2 24- 1 2 


从 而 可 计算 出 每 个 煤 样 隶 属于 每 种 类 型 煤 的 隶属 度 值 , 据 此 可 判断 i 计算 结果 符 
合 实际 (前 5 种 煤 样 的 计算 结果 )。 
>> load x;c=mean (x(12:end,:));b=mean (x(6:11,:));a=mean (x(1:5,:)); 
>> or k=1:5 
dl(k,1:3)=0; 
for i=1:10 
dl (k,1)=dl (k,1)+sqrt ((x(k,i)-a(i))^2);d1l(k,2)=d1 (k,2)+sqrt ((x(k,i)-— 
D2 
dl (k, 3)=dl (k,3)+sqrt ((x(Kk,i)-c(i))^2); 
end 
end 
>> Dl=sum(d1')"'; 名 


>>for i= 1:5;for j=1:3;Al (i,j)=1-d1 (i,j)/D]1 (i);end;end 
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例 3.9 胃病 病人 和 非 胃病 人 的 生化 指标 测量 值 如 表 11.8 所 示 。 试 用 模糊 神经 网 络 方法 对 某 
未 知 样 进行 判别 。 














表 11.8 ”胃病 病人 和 非 胃 病人 生化 指标 的 测定 值 

















pe 铜 蓝 蛋 自 “| 蓝 色 反 应 中 性 硫化 物 厨 -要 
(x1) (x2) (x3) (x4) 
228 134 20 11 1 
胃 245 134 10 40 
200 167 12 27 i 
病 170 150 7 8 和 
225 125 14 2 
130 100 6 12 2 
四 6 
册 加 
未 知 样 100 
解 : 


模糊 神经 网 络 计算 的 步骤 如 下 : 
Q@ 对 于 jl 难 输入 量 二 [xuxz xj， 首 先 根据 模糊 规则 计算 各 输入 变量 5 的 隶属 度 ， 隶 属 度 函 
数 采 用 高 斯 型 ; 
AL =exp(-(x, —¢))2/b;) j=L2 -LS 
其 中 : o, 包 分 别 为 隶属 度 函数 的 中 心 和 宽度 ; 为 输入 参数 的 维 数 ( 即 特 征 向 量 数 ) ; n 为 模糊 
@ 将 各 隶属 度 进行 模糊 计算 ， 模 糊 算 子 采用 连 乘 算 子 
加 二/ 全 GD)*A (sm) i=l 
@ 根据 模糊 计算 结果 计算 模糊 模型 的 输出 值 


| 
Pn 


人 


a -op + 
@ 计算 误差 
1 2 
“02 一 7) 
@ 系数 修正 


i i Oe Oe 国富 - 
大 而 总 天寿 放 二。 后 吕 
4 J op ap d jy 


277 


昌 实战 大 数据 一 一 MATLAB 数据 挖掘 详解 与 实践 


278 


@ 参数 修正 
Oe 
9 
本 例 中 参数 的 修正 方法 采用 遗传 算法 。 由 于 输入 数据 为 四 维 , 输出 数据 为 一 维 ， 所 以 模糊 神 
经 网 络 的 结构 设 为 4-8- 1， 即 有 8 个 隶属 度 函 数 ， 选 择 5x8 个 系数 po~ps，c,b; 各 为 8x4 的 矩 
阵 ， 所 以 共有 104 个 待 优化 系数 。 
编写 适应 度 函 数 如 下 : 


function Y=ml (x) 


SMA DB BE =H-D)-p 


J 





xdata=[228 134 20 11;245 134 10 40;200 167 12 27; 170 150 7 8; 

100 L167 20 142225 125 7 14:130 "100. 6 127150 L117 7 67120 133° 10 265 
160 100 5 T07185 115 5 T97170 125 6 47165 142 5 37185 108.2 127100 T1772] 
xdata=guiyi (xdata);ydata=[1 1 1 1 1 2 2 2 2 2222 2]; 
I=4;M=8; [n,m]=size (xdata); 计算 待 测 样 时 从 这 一 行 开始 
p0(1:8)=x(1:8) ;pl (1:8)=x(9:16) ;p2 (1:8)=x (17:24) ;p3(1:8)=x (25:32) ;p4 (1:8)=x(33 
He D1 


c=reshape (x (41:72) ,8,4) ;b=reshape (x (73:104) ,8,4); 将 zx 分 配给 各 个 参数 
y=0; 
for k=1:m-1 $ 计 算 待 测 样 时 其 中 的 x 值 都 要 为 测试 样 归 一 化 的 值 


for i=1:I;for j=1:M;u(i,j)=exp(- (xdata (i,k) -c (j,i))^2/b(j,i));end;end $ 参 数 
模糊 化 

for i=1:M;w (i)=u(1,i)*u(2,i)*u(3,i)*u(4,i);end sg 隶属 度 计 算 

addw=sum (w); 


for 1=1:M 


yi (i)=p0 (i)+pl (i)*xdata (1, k)+p2 (i)*xdata (2, k)+p3 (i)*xdata (3, k) +p4 (i)*xdata (4, 
k) ; % 输 出 
end 
addyw=0;addyw=yi*w'; yn (K)=addyw/addw; $ 预 测 值 , 计算 待 测 样 时 到 此 结束 
y=y+ (ydata (kK) -yn (k) ) “2/2; 
end 
打开 遗传 算法 工具 箱 GUI， 并 在 相应 的 框 中 输入 各 参数 就 可 以 进行 计算 。 其 中 边界 约束 : 
Lower 输 入 0.01*ones(1,104); Upper 输 入 10*ones(1,104)， 种 群 规模 选 50。 
计算 结束 后 , 将 结果 输出 到 命令 窗口 , 即 可 以 得 到 各 个 参数 。 利 用 这 些 参数 和 适应 度 函 数 的 
程序 就 可 以 计算 未 知 样 的 归属 ， 结 果 为 : y=1.9825， 属 于 第 二 类 。 
例 3.10 某 地 1985 一 1995 年 期 间 每 年 10 月 份 的 地 下 水 平均 值 如 下 所 示 , 试 对 该 地 的 地 下 水 
位 情况 进行 预测 。 
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年 份 : 1985 1986 1987 1988 1989 1990 1991 1992 1993 1994 1995 
水 位 : 27.33 26.92 26.40 25.87 25.42 25.12 24.93 24.89 24.73 24.56 24.60 
解 : 
对 于 时 间 序 列 预 报 ， 希 望 通过 目前 时 刻 上 为 止 已 知 的 序列 值 来 预报 将 来 rp 时 刻 的 序列 值 。 首 
先 构筑 一 个 输入 矩阵 ， 设 延迟 时 间 为 3， 也 即 利用 时 间 序列 的 前 3 个 值 来 预测 第 4 个 值 ;， 然 后 再 利 
用 模糊 一 神经 网 络 进行 预测 ， 程 序 如 下 : 
>> 271.33 26-92226-40125<837125.42 22542524.93124-89124273 24=:56 24565017 
>> m=3;n=length (x); for i=m+l:n;for j=1:m;x]1 (i,j)=x(i- (m-j+1));end;end 
>> xl1=xl1 (mtl:end, :);y=x(mtl:end) ;yy=[x1 y’]; $ 输 入 向 量 ， 即 训练 数据 
>> fisl=genfisl (yy (l:end,:),3); 
>> epoch=150; errorgoal=0; step=0.01;trnOopt=[epoch errorgoal step NaN 
NaN];disopt=[1 1 1 1]; 


>> chkData=[]; $ 检 验 数 据 
>> [fis2,error,st,fis3,e2]=anfis (yy,fisl,trnopt,disopt, chkData); 
>> pred=evalfis (yy(:,1:3), fis2); $ 对 数列 预测 


ans=25.8700 25.4200 25.1200 24.9300 24.8900 24.7300 24.5600 24.6000 
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12.1 粗糙 集 理论 的 基本 概念 


在 自然 界 中 , 大 部 分 事物 所 呈现 的 信息 都 是 不 完整 和 模糊 的 。 对 于 这 些 信息 ， 经 典 逻 辑 由 于 

无 法 准确 地 描述 , 所 以 也 就 不 能 正确 地 处 理 。 长 期 以 来 许多 逻辑 学 家 和 哲学 家 都 致力 于 研究 模糊 
念 。 但 在 现实 世界 中 ,并 不 能 简单 地 用 好 坏 、 真 假 等 确切 的 概念 表示 许多 含糊 现象 ,特别 是 在 
于 集合 的 边界 上 ， 也 即 存在 一 些 个 体 ， 既 不 能 说 它 属于 某 个 子 集 ， 也 不 能 说 它 不 属于 该 子 集 。 

1965 年 ，Zadeh 提出 了 模糊 集 概念 ,之 后 经 过 半 个 世纪 的 努力 , 已 经 形成 了 较为 完整 的 模糊 
集 理论 。 

20 世纪 80 年 代 ， 波 兰 的 科学 家 Z* Pawlak 提出 了 粗糙 集 (rough set ) 理论 。 粗 糙 集 用 上 、 
下 近似 两 个 集合 来 逼近 任意 一 个 集合 , 该 集合 的 边界 区 域 被 定义 为 上 近似 集 和 下 近似 集 的 差 , 边 
界 区 域 就 是 那些 无 法 归属 的 个 体 。 上 、 下 二 近似 集合 可 以 通过 等 价 关系 给 出 确定 的 描述 , 边界 域 
的 元 素数 目 可 以 被 计算 出 来 。 

12.1.1 ”知识 表达 系统 和 决策 表 

知识 是 对 某 些 客观 对 象 的 认识 。 为 了 处 理 数据 , 需要 对 知识 进行 符号 表示 。 知 识 表示 系统 就 
是 研究 对 象 的 知识 通过 指定 对 象 的 基本 特征 和 特征 值 来 描述 , 以 便 通过 一 定 的 方法 从 大 量 的 数据 
中 发 现 有 用 的 知识 或 决策 规则 。 

知识 表达 系统 可 用 下 式 表示 ， 

S= < 元 ,c, D, V, /> 
其 中 : 误 为 对 象 的 集合 ， 即 为 论 域 ; CUD =R 是 属性 的 集合 ; 子 集 C 和 D 分 别称 为 条 件 属性 的 
结果 属性 ; V= U 夏 是 属性 值 的 集合 , 太 表 示 了 属性 xeR 的 属性 范围 ; 六 就 xR- 普 是 一 个 信息 
函数 ， 它 指定 就 中 每 一 对 象 x 的 属性 值 。 

知识 表达 系统 的 数据 以 关系 表 的 形式 表示 , 关系 表 的 行 对 应 要 研究 的 对 象 , 列 对 应 对 象 的 属 
性 ， 对 象 的 信息 通过 指定 对 象 的 各 属性 值 来 表示 。 

设 S= (就 ,4 ) 为 一 知识 表达 系统 ， 且 C，DC4 是 两 个 属性 子 集 ， 分 别称 为 条 件 属性 和 
决策 属性 ， 具 有 条 件 属性 和 决策 属性 的 知识 表 可 表达 为 决策 表 , 记 为 T= ( 总, 4，c, D ) 或 简 
称 为 CD 决策 表 。 关 系 ind(C ) 和 ind (D ) 的 等 价 关系 分 别称 为 条 件 类 和 决策 类 。 

对 象 的 特征 由 条 件 属性 描述 , 决策 属性 表示 该 对 象 的 分 类 。 决策 属性 可 能 表示 专家 根据 条 件 
属性 描述 所 做 的 分 类 、 采 取 的 行动 或 决策 。 


12.1.2 ”等 价 关系 


设 4 代表 某 种 属性 集合 。a 代表 属性 中 的 某 一 种 取 值 。 如 果 有 两 个 样品 马 、 马 , 满足 以 下 关系 
对 于 Vae 4,4CR,X,X, e 屯 ， 它 们 的 属性 值 相同 , 即 6 ( 惫 ) = 大 (总 ) 成 立 ， 称 对 象 总 
和 马 是 对 属性 A 的 等 价 关 系 ， 表 示 为 











IND(A) ={(X,, X) (KX, X) ee Tx, Vae 4f,(X)= 1.(X))} 





即 属性 相同 的 两 个 样品 之 间 的 关系 为 等 价 关系 。 
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粗糙 集 的 等 价 概念 与 传统 的 集合 论 的 等 价 概念 有 本 质 的 区 别 , 在 传统 集合 论 中 , 当 两 个 集合 
有 完全 相同 的 元 素 时 , 它们 是 等 价 的 ; 而 在 粗糙 集中 , 只 是 在 某 一 个 属性 之 下 , 集合 的 取 值 相等 ， 
它 是 集合 间 的 拓扑 结构 ， 不 是 构成 集合 的 元 素 间 的 比较 。 
在 喜 中 , 对 属性 集 4 中 具有 相同 等 价 关 系 的 元 素 集合 成 为 等 价 关系 IND (4 ) 的 等 价 集 CA， 
表示 在 属性 4 下 与 工具 有 等 价 关系 的 元 素 集合 。 


[Xl ={X,|(X,X,)eIND(A)} 











12.1.3 ”等 价 划分 


从 所 采集 的 训练 集中 把 属性 值 相同 的 样品 聚 类 ， 形 成 若干 个 等 价 集 ， 构 成 4 集合 。 在 文中 
对 属性 4 的 所 有 等 价 集 形成 的 划分 表示 为 
A={E|E =[X],,i=1,2,,} 








具有 特性 : 
(1 BOs 
(2) 当 动 E 时 , ENE,=8; 
(3 


12.1.4 上 近似 集 和 下 近似 集 


属性 4 可 划分 为 若干 个 等 价 集 , 与 决策 集 了 对 应 关系 分 上 近似 集 4 (了 ) 和 下 近似 集 4.( 了) 
两 种 : 


1. 下 近似 定义 


对 任意 一 个 决策 属性 的 等 价 集 KY c 革 )， 届 性 4 的 等 价 集 BFCQA， 有 


A(D)=UE |E eANE, CY} 





或 
A(D)={XI[X), 7} 
表示 等 价 集 E=[XI4 中 的 元 素 都 属于 了 Y, 即 YY e 4.(7Y), 则 工 一 定 属于 Y。4. (了) 表示 下 近似 集 。 


2. 上 近似 定义 
对 任意 一 个 决策 属性 的 等 价 集 Y( Yc 广 )， 属 性 4 的 等 价 集 E=[XJa。， 有 


A(Y)=U{E |E eAAENY #0} 





或 

4D)={XIXLNY #0} 
表示 等 价 集 E 二 [Xl 中 的 元 素 可 能 属于 7Y,， 即 VX e4(Y) ， 则 半 可 能 属于 了， 也 可 能 不 属于 Y。 
4 (了 ) 表示 上 近似 。 
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3. 正 域 、 负 域 和 边界 的 定义 





全 集 总 可 以 划分 为 3 个 不 相交 的 区 域 ， 即 正 域 ( POSA )、 负 域 (WEGA ) 和 边界 ( BNDA )。 
正 域 : POSA (Y) =4. (了 ) 

负 域 : NEGA (Y) = 盛 - 代 (7) 

边界 : BNDA=4 (了 ) -4.(7) 

由 此 可 见 : 





A (7Y) =4 (7) +BNDA (了 ) 
从 上 述 的 定义 中 可 知 ， 任 意 一 个 元 素 XePOS (了 ), 一 定 属于 Y; 任意 一 个 元 素 XENEG 
(了 ), 一 定 不 属于 Y; 集合 的 上 近似 是 其 正 域 和 边界 的 并 集 ， 即 
A(Y)= POS,(Y)UBND,(Y) 
对 于 元 素 XEBND (了 ), 无 法 确定 其 是 属于 了 Y， 因 此 对 于 任意 元 素 Xe4 (了 )， 只 知道 蕊 可 
能 属于 了 Y。 


12.1.5 ”粗糙 集 


若 4 (7) =4 (7), 即 BNDA (了 ) = 纪 ， 即 边界 为 空 ， 称 了 为 4 的 可 定义 集 ， 否 则 了 为 4 
的 不 可 定义 集 ， 即 4 (了 ) #4. (了 )， 称 了 为 4 的 粗糙 集 (Rough set )。 


12.1.6 “粗糙 集 的 非 确定 性 的 精确 度 cA(Y) 和 粗糙 度 pa(Y) 


集合 的 不 确定 性 是 由 于 边界 的 存在 而 引起 的 , 集合 的 边界 域 越 大 , 其 精确 性 越 低 。 为 了 准确 
地 表达 这 一 点 ， 常 用 精确 度 aa() 和 粗糙 度 pa() 来 表示 ， 即 











EA) 

IX| 
上 式 中 | 王 | 和 [4 (7) -4 (7) | 分 别 为 集合 [ 京 ]、L4 (7) -4 (7) ] 中 的 记录 总 数 ， 精 确 度 用 来 
反映 六 的 知识 的 完整 程度 ， 即 能 够 根据 喜 中 各 属性 的 属性 值 就 能 够 确定 其 属于 或 不 属于 了 工 的 比 
例 。 


也 可 以 用 粗糙 度 来 定义 集合 训 的 不 确定 程度 ， 即 


PiOD=1I-wOD 
与 概率 论 或 模糊 集合 不 同 ， 不 查 烽 集 的 精确 的 数 不 是 事先 假定 的 ， 而 是 通过 表达 知识 不 精确 
性 的 概念 近似 计算 的 ， 这 样 不 精确 的 数值 表示 有 限 知识 的 结果 。 


12.2 分 类 规则 的 形成 


应 用 粗粮 集 理论 ,对 数据 进行 学 习 ， 从 中 寻找 隐 含 的 模式 和 关系 ,对 数据 进行 约 简 , 评价 数 
据 的 重要 性 ， 从 数据 中 产生 分 类 规则 。 
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通过 分 析 京 中 的 两 个 划分 了 和 碟 之 间 的 关系 ， 把 了 视 为 分 类 条 件 , 工 视 为 分 类 结论 ， 可 得 
到 下 面 的 分 类 规则 : 

(1) 当 了 了 妓 @， 则 有 : desCY) 一 desCO 

des(Y) 和 des(X) 分 别 是 等 价 集 了 和 等 价 集 耻 中 的 特征 描述 : 

@ 当 YINX=Y， 即 了 全 部 被 耳 包 含 ， 此 时 建立 的 规则 是 确定 的 ， 规 则 的 置信 水 平 为 1; 

@ 当 YNX¥Y， 即 了 全 部 不 被 X 包含， 此 时 建立 的 规则 是 不 确定 的 ， 规则 的 置信 水 平 为 














(2) 当 INX= @ ，7 和 式 不 能 建立 规则 。 


12.3 ”知识 的 约 简 


知识 的 约 简 是 在 保持 知识 库 中 初等 范畴 的 情况 下 ,消除 知识 库 中 元 余 的 基本 范畴 , 这 一 过 程 
可 以 消去 知识 库 中 非 必 要 的 知识 ,仅仅 保留 真正 有 用 的 部 分 ， 即 知识 的 “ 核 ”。 

对 于 知识 库 可 用 知识 表达 系统 形式 化 , 知识 库 中 任 一 等 价 关系 在 表 中 表示 一 个 属性 和 用 属性 
表示 的 关系 的 等 价 类 。 表 中 的 列 可 以 看 作 某 些 范畴 的 名 称 , 而 整个 表 包 含 了 相应 适应 库 中 所 有 范 
畴 的 描述 ， 能 从 表 中 数据 导出 的 所 有 可 能 的 规律 ， 这 就 形成 了 一 个 决策 表 。 通 过 这 种 表达 ， 很 容 
易 用 数据 表 的 性 质 来 表示 知识 库 的 基本 性 质 , 用 符号 代替 语言 定义 , 从 而 对 知识 的 约 简 就 变 成 对 
决策 表 的 简化 。 


12.3.1 决策 表 的 一 致 性 


决策 表 中 的 对 象 按 条 件 属性 与 决策 属性 关系 看 作 一 条 决策 规则 ， 可 写成 : 
Afo (X)= fo(X) 


式 中 : Ci 表示 多 个 条 件 属性 ; D 表示 决定 属性 ; fc 表示 对 象 工 在 Ci 的 取 值 ; 人 表示 逻辑 “与 ”。 








对 任 一 个 对 象 ， 若 条 件 属性 有 fc CD) = fc (X,) ， 则 决策 属性 必须 有 fo (XZ)= fo(X,)， 即 
一 致 性 决策 规则 说 明 条 件 属性 取 值 相同 时 ， 决 策 属性 取 值 必须 相同 。 

一 致 性 决策 规则 也 允许 : 若 条 件 属性 有 fc (各)# fc(X,) ， 则 决策 属性 可 以 是 
fo(K)= fo(X) 或 fp(X)# fo(X)) 。 

在 决策 表 中 如 果 所 有 对 象 的 决策 规则 都 是 一 致 的 ， 则 该 信息 表 是 一 致 的 ， 否 则 信息 表 是 不 
一 致 的 。 在 进行 属性 约 简 时 ,每 约 掉 一 个 属性 时 要 检查 属性 表 ， 若 保持 一 致 性 ， 则 可 以 删除 , 否 
则 不 可 以 删除 。 


12.3.2 ”属性 约 简 


决策 表 中 决策 属性 D 依赖 条 件 属性 C 的 依赖 度 定义 为 
_lPOS(C.D)| 
| 于 | 





7(C.D) 
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其 中 : | POS ( CD ) | 表示 正 域 POS ( C,D ) 元 素 的 个 数 ， | 辫 | 表示 整个 对 象 集合 的 个 数 。 

y (C.D ) 的 性 质 如 下 : 

@ 若 y=1， 表 示 在 已 知 条 件 C 下 ,可 以 将 主 上 全 部 个 体 分 类 到 决策 属性 D 的 类 别 中 去 。 

@ 若 y=0， 即 利用 条 件 C 不 能 分 类 到 决策 属性 D 的 类 别 中 去 。 

@0<y<1,， 即 在 已 知 条 件 C 下 ， 只 能 将 宇 上 那些 属于 正 域 的 个 体 分 类 到 决策 属性 DD 的 类 

别 中 去 。 
设 C,，DC4，C 为 条 件 属 性 集 ， 为 决策 属性 集 ，aeC， 属 性 a 关于 DD 的 重要 度 定义 为 
SGF(a,C,D)=7(C,D)-7y(C-{a},D) 
式 中 ; y(C 一 {q},D) ,表示 在 C 中 缺少 属性 a 后 , 条 件 属性 与 决策 属性 的 依赖 程度 ; SGF(a,C，) 
表示 C 中 缺少 属性 a 后 ， 导 致 不 能 被 正确 分 类 的 对 象 在 系统 中 所 占 的 比例 。 
SGF(a,C，) SGF(a,C，) 的 性 质 : 
© SGF(a,C, E[0.1]。 
@ SGF(a,C，) =0， 表 示 属 性 a 关于 DD 是 可 约 简 的 。 
图 SGF(a,C，)#0， 表 示 属 性 a 关于 DD 是 不 可 约 简 的 。 

设 C、 DD 分 别 是 信息 系统 5 的 条 件 属性 和 决策 属性 集 ， 属性 集 P ( PcC ) 是 C 的 一 个 最 
小 属性 集 ， 当 上 且 仅 当 ”( C,D ) 并 且 YP'c P,y(P',D)z#y(P,D), 说明 若 P 是 C 的 最 小 属性 集 ， 则 
P 了 具有 与 C 相同 的 区 分 决策 类 的 能 力 。 

12.3.3 “分辨 矩阵 与 分 辨 函数 
决策 表 的 分 汰 矩阵 是 一 个 对 称 的 n 阶 方 阵 ， 其 元 素 定义 为 
{alaeCHf(%,a)# f(x),a)} (wx,x)) ¢IND(D) 
m’ =1@ (%,x)) EIND(D) 

-1 f(x,a)= f(x,,a)} 日 (%,,x)) ¢ IND(D) 

在 构造 决策 表 的 分 辨 矩阵 时 要 注意 ， 只 有 在 x;、 己 不 属于 同一 决策 类 的 前 提 下 ，m; 是 可 以 
区 分 x 性 的 所 有 属性 的 集合 ; 若 、 己 属于 同一 类 决策 类 时 ， 则 分 辨 矩 阵 中 元 素 mi 为 ， 而 当 
所 有 属性 值 相同 但 决策 类 不 同 ， 即 不 符合 一 致 性 原则 ， 元 素 值 为 - 1， 表 明 数 据 有 误 或 者 提供 的 
条 件 属 性 不 足 。 

由 于 分 辨 矩阵 是 矩阵 ， 在 计算 时 只 需 写 出 分 辨 矩阵 的 下 三 角 部 分 即 可 。 
C 的 刀 核 是 分 辨 矩阵 所 有 单个 元 素 zw 的 并 ， 即 














CORE,(C)={aeCl|m, ={a} 1<i,j<n)} 
决策 表 的 分 辨 函数 定义 为 下 式 ， 即 为 元 素 的 合 取 和 析 取 。 


p= {vm,} 
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12.4， 模糊 集 与 粗糙 集 


粗糙 集 与 模糊 集 并 非 是 对 立 的 理论 , 两 者 既 互 相 区 别 , 又 互相 补充 。 从 根本 上 讲 , 粗糙 集体 
现 了 集合 中 对 象 间 的 不 可 区 分 性 , 即 由 于 知识 的 粒度 而 导致 的 粗糙 性 ; 而 模糊 集 则 对 集合 中 子 类 
的 边界 的 不 清楚 定义 进行 模型 化 , 体现 的 是 隶属 边界 的 模糊 性 。 它们 处 理 的 是 两 种 不 同 的 模糊 和 
不 确定 性 ， 如 果 将 两 者 有 机 地 结合 在 一 起 能 更 好 地 处 理 不 完全 的 知识 。 
粗糙 集 与 模糊 集 都 是 经 典 集合 论 的 拓展 , 但 它们 之 间 有 较 多 不 同 的 地 方 。 模 糊 集 主要 着 限于 
知识 的 模糊 性 ， 它 是 通过 对 象 关于 集合 的 隶属 程度 来 近似 描述 模糊 性 , 但 其 隶属 函数 一 般 是 由 专 
家 给 出 ， 具有 较 强 的 主观 性 ;而 粗糙 集 则 强调 知识 的 粗糙 性 ， 它 是 通过 一 个 集合 上 、 下 近似 计算 
出 来 的 而 不 是 事先 假定 的 , 两 者 反映 的 知识 粒度 不 同 。 从 集合 的 对 象 间 的 关系 来 看 , 模糊 集 强 调 
集合 边界 的 状态 ,反映 集合 本 身 的 含糊 性 ， 而 粗糙 集 强 调 的 是 集合 对 象 间 的 不 可 分 辨 性 。 从 研究 
对 象 来 看 ,模糊 集 研究 的 是 属于 同一 类 的 不 同 对 象 对 集合 的 隶属 关系 , 重 在 隶属 程度 ， 因 此 模糊 
集 是 数据 挖掘 中 常用 的 聚 类 方法 之 一 ;而 粗糙 集 研究 的 是 不 同类 中 的 对 象 组 成 的 集合 之 问 的 关 
系 ， 重 在 分 类 ,分 类 的 能 力 在 于 论 域 上 的 不 可 分 辨 关系 提供 的 知识 多 少 。 

粗糙 集 理论 的 优势 在 于 它 不 需要 任何 预 务 的 额外 的 数据 信息 , 则 模糊 集 和 概率 统计 等 处 理 不 
确定 的 常用 方法 需要 一 些 数据 的 附加 信息 或 先 验 知 识 , 如 模糊 隶属 函数 和 概率 分 布 等 。 但 粗糙 集 
也 有 其 局 限 性 , 单纯 地 使 用 粗粮 集 理论 不 一 定 能 完全 有 效 地 描述 不 精确 或 不 确定 的 问题 , 因此 在 
实际 应 用 中 , 常 将 粗糙 集 理论 与 模糊 集 理论 结合 起 来 。 这 是 因为 这 两 者 都 是 描述 不 精确 事物 的 方 
法 , 只 是 侧重 面 不 同 。 粗粮 集 主要 用 于 处 理 区 间 值 或 一 组 值 的 情况 ,而 模糊 集 主要 用 于 将 具有 模 
糊 意 义 的 精确 数据 用 模糊 分 段 的 方法 详细 描述 的 情况 。 


12.5 基于 MATLAB 的 粗糙 集 处 理 方法 
例 3.11 对 于 表 12.1 所 示 的 决策 表 ， 求 分 辨 矩阵 和 核 。 



































表 12.1 决策 表 
CC 
Bq 1 和 0 0 2 
区 人 1 2 和 1 0 
.6 2 人 0 0 党 
xX 2 1 1 0 2 
已 2 1 2 和 1 
解 : 


根据 分 辨 矩阵 的 定义 ， 可 编程 计算 。 分 辨 矩阵 中 单元 素 的 元 素 项 即 为 核 。 

So 
>>y=core (x) ;y{2}='I2'  s 即 'b' ,程序 中 的 属性 用 'Ii' 表 示 

>> yi1j=0 [0] [] | Ey [] [] 0 
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[] [] [] [] [] [] | 


{1x3 cell} {1x2 cell}  [] [] [] [] | 
{1x1 cell} {1x2 cell} {1x2 cell} {] [] [0] | 
{1x4 cell} {1x3 cell} [] {1x4 cell} [{] [] Li 
{1x4 cell} {1x3 cell}  [] {1x4 cell} [{] [] Li 
[] 0] {1Xx4 cell} {1x2 cell} {1x2 cell} {1x2 cell} Wo 
[] 0] [ -1] {lx2 cell} {1x2 cell} {1x3 cell} a 
例 3.12 对 表 12.2 中 的 决策 表 进行 约 简 。 
表 12.2 决策 表 d 
WW c 
Bq 0 0 
Bq 1 | 
Bq 1 
XX 0 0 
矿 1 0 
.4 六 
> a 1 1 
加 0 0 








解 : 

对 决策 表 的 约 简 可 以 用 两 种 方法 : 一 是 利用 分 辨 矩 阵 , 再 利用 逻辑 运算 就 可 以 得 到 核 及 约 简 
属性 ; 二 是 根据 属性 的 重要 度 确定 可 以 约 简 的 属性 , 即 重要 度 为 0 的 属性 可 以 删除 , 但 此 时 要 检 
查 一 致 性 ， 即 约 简 后 的 决策 表 不 能 存在 相互 矛盾 的 规则 。 

根据 此 原理 ， 就 可 以 编程 对 所 给 的 决策 表 进 行 约 简 。 
2 





>> y=reduction _ rough (x); 


y{1}=redu: {"I2"} sg 可 以 约 简 的 属性 
keep: EL VES") 决策 有 保留 下 的 属性 
dnum: 2 $ 可 以 约 简 属性 的 序号 


由 于 在 某 些 较为 复杂 决策 表 的 约 简 中 , 可 以 有 多 种 约 简 选 择 , 所 以 规则 的 建立 用 另外 的 函数 
计算 ,其 中 建立 后 的 规则 ， 既 可 以 进行 简化 ， 也 可 能 维持 不 变 。 








>> y=rule rough (x,2,'on'); son 表示 对 规则 进行 简化 ，off 表示 不 简化 
>> y=rule: {[2x3 double] [2x3 double]}  $ 最 后 形成 的 规则 
DECOR tT ES $ 最 后 形成 决策 表 的 表 头 
>> y-rule{l}= NaN 0 0 sNaN 表示 此 属性 在 此 规则 中 可 以 忽略 
B30 10 


SV ruler2l=1 L 让 
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NaN 2 1 


例 3.13 某 机 械 常见 故障 有 磨损 、 叶 片断 裂 、 
生 这 些 故 障 时 , 会 出 现 多 种 征兆 ,尤其 以 振动 现象 最 为 明显 、 普 遍 。 通 过 
表现 为 其 旋转 频率 的 倍 频 。 因 此 , 可 以 用 该 机 械 在 这 些 频率 成 分 上 





断 识 别 各 种 故障 。 


通过 分 析 测 量 得 到 表 3.21 所 示 的 数据 (已 
表示 ,故障 用 DD 表示 。 试 用 粗糙 集 理 论 分 析 之 。 
表 12.3 某 机 械 故 障 的 决策 表 








样 本 X1 
1 3 
2 1 
3 3 
4 2 
人 1 
6 3 
3 
8 1 
9 3 
10 2 
11 1 
12 1 
13 2 
14 1 
15 1 
15 3 

解 : 


>>1oad x;y=reduction rough (x); 
>> y{1l}=redu: {3x2 cell} 
keep: {3x3 cell} 


X2 


ww 一 | = 


有 HE 


wlle|ls|le|is| 


miwil-|. 


dnum: [3x2 double] 


VR ved T2130 
5 A 
全 
Veep dL 
3 


Il' 'I2" 


I5* 
"IT5" 


"IT5" 

















散 化 )， 其 中 属性 


SI-|o|lo|lo|lo|INIo|-|I-|»|-|-|x 
oolol-o|o|-|IoIv|io|5|-|»|v | 


b 
BS 





[SS 
[LS 
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心 度 偏 移 、 油 膜 失 稳 等 。 当 发 
究 该 机 械 的 故障 振动 
作为 特征 信息 来 诊 


用 x 、xo、x3、x4 和 xs 


oI 一 | 一 IN|Iv|o|v|-|D 


一 | 


[3 
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从 结果 中 看 出 ， 本 决策 表 的 核 是 了 1' 和 'T5'， 可 以 约 简 的 属性 为 x,、x3、xs， 但 不 能 同时 约 简 ， 
否则 有 相 了 矛盾 的 规则 ， 即 不 符合 一 致 性 , 因此 ,有 3 种 约 简 方法 ， 可 以 通过 优化 方法 确定 最 优 的 
约 简 方 法 。 在 此 设 定 以 下 的 约 简 ， 然 后 可 以 计算 规则 : 
>> y=rule _ rough (zx, [2 3], "off') 7 久 即 删除 x。、xs 属性 





>> y= rule: {[5x4 double] [3x4 double] [5x4 double]} 


Pro 
根据 以 上 的 决策 表 作为 训练 集 , 利用 人 工 神经 网 络 等 方法 就 可 以 判别 不 同情 况 下 的 该 机 械 的 
故障 种 类 。 
例 3.14 某 证 券 公司 为 了 更 好 地 提高 对 不 同 客户 的 服务 质量 , 需要 对 客户 分 类 。 根 据 资金 余 
额 、 总 成 交 额 、 总 成 交 量 和 交易 频 度 4 个 指标 ， 将 客户 确定 为 VIP、IP 和 CP ( 由 专家 根据 4 个 
指标 值 的 不 同情 况 决定 )。 现 根据 相关 数据 得 到 表 12.4 的 决策 表 。 试 求 客户 的 分 类 方法 。 
表 12.4 决策 表 





解 : 

可 以 根据 决策 表 求 出 每 个 指标 的 权重 ， 然 后 根据 每 个 客户 具体 这 4 个 指标 的 数值 ， 便 可 以 求 
出 客户 的 重要 程度 。 

el ee 





WNT S32 22 


>>y=importance_ rough (x, (1:4) '); 


从 结果 中 ,可 看 出 各 指标 的 重要 性 为 0.2、0.3 、0.700 和 0.40, 相应 的 权重 系数 为 0.1250、0.1875、 
0.4375 和 0.2500。 由 于 第 1 、2 个 指标 的 权重 基本 相同 ， 可 以 将 其 合并 为 一 个 ， 从 而 可 得 到 决定 客 
户 重要 性 是 的 各 指标 比例 为 20%、70% 和 10%。 

根据 各 指标 的 权重 ， 便 可 在 一 定数 据 的 基础 上 ， 对 客户 进行 分 类 。 
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13.1 目标 优化 概述 


人 们 在 科学 实验 、 生 产 技术 改进 、 工 程 设 计 、 社 会 经 济 问题 分 析 、 管 理 决策 等 实际 工作 中 ， 
都 倾向 于 采取 某 种 措施 , 以 便 在 有 限 的 资源 条 件 下 或 规定 的 约束 条 件 下 得 到 最 满意 的 效果 , 这 就 
引出 了 优化 问题 ， 即 在 满足 一 定 的 约束 条 件 下 ,寻找 一 组 参数 值 ， 以 使 系统 的 某 些 性 能 指标 ( 目 
标 函 数 ) 达到 最 大 或 最 小 。 优 化 问题 在 工业 、 社 会 、 经 济 、 管 理 等 名 个 领域 都 有 广泛 的 应 用 , 其 
重要 性 是 不 言 而 喻 的 。 在 数据 挖掘 的 很 多 算法 中 ， 问 题 最 终 也 常常 归结 为 一 个 目标 优化 问题 。 

优化 是 指 在 合理 的 时 间 范 围 内 为 一 个 优化 问题 寻找 可 行 解 的 过 程 , 其 中 优化 问题 的 可 行 解 之 
间 是 可 以 进行 量化 比较 的 。 寻 优 问 题 最 优 可 行 解 过 程 的 第 一 步 是 要 对 问题 进行 描述 并 在 此 基础 上 
建立 数学 模型 , 即 利用 数学 方程 式 和 不 等 式 来 描述 说 明 所 求 的 优化 问题 ,其 中 包括 目标 函数 和 约 
束 条 件 ， 而 识别 目标 、 确 定 目标 函数 的 数学 表达 形式 尤为 关键 。 优 化 问题 根据 目标 函数 、 约 束 函 
数 的 性 质 以 及 优化 变量 的 取 值 等 可 以 分 成 多 种 类 型 , 每 一 种 类 型 的 优化 问题 根据 性 质 的 不 同 都 有 
其 特定 的 求解 方法 。 

不 失 一 般 性 ， 优 化 问题 可 以 描述 为 

mino=/(X) 
st XeS={X|g(X)<0,i=1,…,m} 

式 中 : o = f(X) 为 目标 函数 ; gx 为 约束 函数 ; 5 为 约束 域 ; 庆 为 n 维 优化 变量 。 当 于 为 连续 变 
量 时 ， 最 优化 问题 为 函数 优化 问题 ; 当 开 为 离 解 变量 时 ， 最 优化 问题 变 为 组 合 优化 问题 。 

当 AX) 、gt 习 为 线性 函数 且 80 时， 上述 优 化 问题 即 为 线性 规划 问题 ， 其 求解 方法 有 成 熟 
的 单纯 形 法 和 卡 马 卡 ( Karmarkar ) 方法 。 

当 AX)、g:(9D 中 至 少 有 一 个 函数 为 非 线 性 函数 时 ， 上述 问 题 即 为 非 线性 规划 问题 。 非 线性 规划 
问题 相当 复杂 ， 其 求解 方法 多 种 多 样 ， 但 到 目前 为 止 仍然 没有 一 种 有 效 的 适合 所 有 问题 的 方法 。 

当 优 化 变量 子 仅 取 整 数值 时 ， 上 述 问 题 即 为 整数 规划 问题 ， 特 别 是 当 茸 仅 能 取 0 或 1 时 ， 
上 述 问题 即 为 0 一 1 规划 问题 。 由 于 整数 规划 问题 属于 组 合 优 化 范畴 ， 其 计算 量 随 变量 维 数 的 增 
长 而 呈 指 数 增长 ， 因 此 存在 着 维 数 灾难 问题 。 

当 g;(0D<0 ( 寺 1,2,…,m ) 所 限制 的 约束 空间 为 整个 维 欧 氏 空间 ， 即 尺 时 ， 上 述 优化 问题 
就 为 无 约束 优化 问题 。 

对 于 非 线 性 规划 问题 , 函数 的 非 线性 使 得 问题 的 求解 变 得 十 分 困难 , 特别 是 当 目 标 函 数 在 约 
束 域内 存在 多 峰值 时 , 常见 的 求解 非 线 性 问题 的 优化 方法 其 求解 结果 与 初 值 的 选择 关系 很 大 。 也 
即 一 般 的 约束 或 无 约束 非 线 性 优化 方法 均 是 求 问题 函数 在 约束 域内 的 近似 极 值 点 , 而 非 真 正 的 极 
值 点 。 

优化 问题 的 解 包括 全 局 最 优 解 和 局 部 最 优 解 ， 有 些 优 化 问题 ， 如 NP 问题 (non-polynomial 
problem ) 只 能 取得 局 部 最 优 解 或 次 优 解 。 

一 般 而 言 ， 优 化 问题 都 是 一 些 难 解 问题 ， 特 别 是 随 着 非 凸 、 非 线性 、 高 维 、 多 变量 、 多 模 、 
多 约束 条 件 、 多 目标 函数 等 复杂 优化 问题 不 断 地 被 提出 , 优化 问题 也 越 来 越 复杂 。 在 自然 计算 中 ， 
常用 计算 复杂 性 来 描述 问题 的 难 易 程度 或 算法 的 执行 效率 。 算法 的 执行 效率 主要 指 算法 执行 时 的 
时 间 消 耗 ， 包 括 运行 时 间 开销 和 存储 时 间 开销 两 个 方面 , 前 者 称 为 算法 的 时 间 代价 ,后 者 称 为 算 
法 的 空间 代价 。 
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对 于 复杂 性 较 高 的 优化 问题 , 传统 的 算法 求解 往往 不 能 进行 有 效 的 求解 , 或 者 求解 的 时 间 过 
长 或 求解 的 效果 差 而 令 人 无 法 接受 。 对 于 这 些 问题 ， 智 能 优化 算法 作为 一 种 随机 性 优化 算法 , 能 
够 真正 有 效 地 解决 以 上 问题 ， 且 具有 一 定 的 普 适 性 。 


13.2， 极 值 问题 


极 值 是 在 某 个 定义 范围 内 函数 的 最 大 值 或 最 小 值 。 问 题 的 对 象 可 以 有 连续 和 离散 两 种 情况 ， 
需要 使 用 不 同 的 方法 对 它们 求解 。 








1. 连续 情况 

在 数学 上 ， 极 值 的 必要 条 件 是 函数 AX) 在 xo 处 的 一 阶 导 数 等 于 0， 即 
dW 
dd 





极 大 值 和 极 小 值 的 区 分 是 根据 函数 在 相应 位 置 二 阶 导 数 取 值 的 正 负 情况 确定 ， 即 


中 AY 
极 大 值 条 件 :一 |-。<。 





A) 

极 小 值 条 件 : Tr |,>0 

根据 定义 ， 就 可 以 求 出 连续 函数 的 最 优 值 。 

2. 离散 情况 

对 于 离散 情况 的 极 值 求解 ， 与 连续 情况 的 类 似 ， 不 同 处 为 差分 代替 微分 。 


13.3 ”无 约束 非 线性 规划 


对 于 一 般 的 非 线性 函数 ,A 用 解析 法 得 到 精确 解 比较 困难 ， 常 用 的 方法 是 用 搜索 法 求 得 近似 
最 优 解 。 无 论 搜 索 是 在 多 维 空间 进行 的 ， 思 路 都 是 和 一 维 空间 搜索 相同 的 。 
类 似 于 一 维 搜索 ， 第 tt1 次 迭代 后 x 的 位 置 为 


三 


其 中 : x@ 为 第 大 次 迭代 后 x 的 位 置 ; X@ 为 第 大 次 步 长 ,表示 第 丰 次 搜索 方向 。 
利用 上 式 ， 逐 步 搜索 ,逐次 逼近 极 小 值 。 如 果 每 一 步 有 


Je < Je) 


则 在 一 定 次 数 的 迭代 后 ， 会 满足 下 面 至 少 一 个 结果 。 第 1 种 结果 是 ,“ 搜 索 方 向 ”的 模 量 已 经 足 
人 够 小 


la® ca.0<al 
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第 2 种 结果 是 ,每 前 进一步 ， 目 标 函数 几乎 没有 改进 
[f°® f(x) 5,0<6, | 


只 要 这 两 者 中 有 一 个 已 达到 精度 ， 就 停止 搜索 ， 并 将 x*? 看 作 是 近似 极 小 点 。 

求解 非 线性 多 元 函数 极 值 的 迭代 法 可 以 粗略 地 分 为 直接 法 和 间接 法 。 直 接 法 只 用 到 函数 本 身 
的 信息 , 显 见 , 由 于 用 到 的 目标 函数 信息 较 少 , 收敛 速度 也 慢 一 些 。 而 间接 法 要 用 到 函数 的 导数 ， 
由 于 用 到 的 目标 函数 信息 较 多 , 收敛 速度 也 较 快 。 间 接 法 也 称 为 解析 法 ,但 只 能 用 于 目标 函数 有 
解析 式 、 可 求 导数 的 场合 。 下 面 为 常用 的 几 种 间接 法 。 
13.3.1 梯度 下 降 法 

由 于 负 梯 度 方向 是 函数 值 下 降 最 快 的 方向 , 所 以 梯度 下 降 法 就 是 在 选 代 的 每 一 步 都 沿 着 负 梯 
度 方向 移动 一 段 距离 。 

梯度 下 降 法 也 称 最 速 下 降 法 ， 它 对 初始 点 的 选取 要 求 不 严 ， 和 迭代 过 程 简单 ， 便 于 使 用 。 

设 目标 函数 fx) 具 有 一 阶 连续 偏 导数 ， 且 极 值 存在 ， 其 负 梯 度 方向 就 是 函数 值 Kx) 的 最 速 下 
降 方 向 。 迭 代 公 式 为 

krD 到 xb =A0V/G OY k= 0, 人 a 

其 中 0 4 中 称 为 步 长 或 学 习 率 ， 其 计算 公式 为 


A® = WA CO vA Ce 
V/VY HY YY) 





其 中 五 为 Hesse 阵 

SEY Bo je) 

(oe OuOx, OrOxy 
Gf) DG Of 

Ho)=| aa Oxox, Bx,Oxy 
af Pf) Of) 

Gon Bo Bevo 

梯度 下 降 法 的 算法 步骤 如 下 。 


(1 ) 给 定 初始 近似 点 x 中 及 精度 要 求 1 >0，s，>0。 如 果 || YAGxo) 下 入 0， 则 停止， 并 令 x*= 
x 中 ， 得 近似 最 小 点 x*; 否则 令 上 = 0， 进 行 下 一 步 。 
(2) 若 I| VA(x 外 ) | s, ， 则 可 用 一 维 搜索 法 、 微 分 法 计算 最 优 搜索 步 长 各， 或 者 设 定 一 个 
0 试 算 , 求 
WY EO 


(3 ) 如 果 || Vx 中 )| 乓 a 或 7? 一 了 (x 外) zs, 即 达到 精度 要 求 , 则 停止 , 并 令 zx= xz， 
得 近似 最 小 点 x*， 否 则 返回 第 1 步 。 
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13.3.2 ” 共 轿 梯度 法 


梯度 下 降 法 的 最 速 下 降 特性 只 有 在 求 梯度 的 点 x 附近 ， 所 以 ， 沿 此 方向 前 进 的 步 长 不 应 太 
大 ,否则 达 不 到 最 速 下 降 。 为 了 改进 这 个 缺点 ， 可 以 采用 共 斩 梯 度 法 和 牛顿 法 等 ， 使 之 在 远离 极 
小 点 时 ， 收 敛 较 快 ， 而 当 接近 极 值 点 时 ， 也 有 较为 满意 的 收敛 速度 。 
设 x 和 ? 为 NxN 的 对 称 正定 阵 4 共 思 ， 即 满足 xb=0。 
在 共 斩 梯 度 法 中 可 以 使 用 下 面 公 式 计 算 步 长 和 迁 代 的 每 一 个 点 : 

xD = xb+MDd 
(VxHY a® 

dey 过 -Gy a 
pe 二 (Vf( x dD) Vf( xD) 


VY VS) 
大 = 0,1.2,…- 








Mb = 


13.3.3 “牛顿 法 
高 维 搜索 的 牛顿 法 的 计算 公式 为 
trD A x 下 A®, db 


d® = -CHCxJ)IVAGxm) 
min f(x® +AV4®) 


天 = 0,12,…- 
具体 步 又 如 下 。 
(1) 设 定 初始 点 3， 及 梯度 允许 误差 。 > 0。 若 YA(x@) 目 入 = ， 则 极 小 点 9=x*， 选 代 停 
止 。 令 百 ”=1, 求 


do FH" Vx®) 


沿 d@m 方 向 进行 一 维 搜索 ， 求 得 最 优 步 长 4 ， 得 xz =x + ModQ@ 
(2) 计算 互 ” 。 
(3) 求 : #0 = x+ 0dW 


其 中 ，d =- 有 Vf/(x%) 


13.4 ”有 约束 非 线性 规划 
典型 的 有 约束 非 线性 规划 问题 如 下 。 
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min f(x) 
gj(X)>0 j=1,2,…,4 
[责成 h,(X)=0 p= 


EJ 闫 六 所 二 LD 








若 上 述 目标 或 约束 条 件 中 ， 有 一 个 或 多 个 函数 是 非 线性 的 ， 则 此 问题 就 称 为 非 线性 规划 。 

对 于 约束 优化 问题 , 一 类 重要 的 求解 方法 就 是 通过 解 一 系列 无 约束 优化 问题 以 获取 原 非 线性 
约束 问题 解 的 惩罚 函数 方法 ,其 基本 思想 是 : 根据 约束 的 特点 构造 某 种 惩罚 函数 , 并 把 惩罚 函数 
加 到 目标 函数 上 ,从 而 得 到 一 个 增 广 目标 函 数 , 使 约束 优化 问题 的 求解 转化 为 一 系列 优化 问题 的 
求解 。 故 称 此 类 算法 为 序列 无 约束 极 小 化 方法 ( sequential unconstrained minimization technique， 
SUMT )。 常 用 的 SUMT 方法 有 两 种 ， 即 外 点 法 和 内 点 法 。 

外 点 法 的 惩罚 策略 是 : 对 违反 约束 条 件 的 点 在 目标 函数 中 加 入 相应 的 惩罚 ,而 对 可 行 点 不 予 
惩罚 ， 其 迭代 点 一 般 在 可 行 域外 部 移动 。 随 着 迭代 的 进行 ,惩罚 也 逐次 加 大 ， 以 迫使 选 代 点 不 断 
允 近 并 最 终 成 为 可 行 点 ， 以 便 找到 原 约束 优化 问题 的 最 优 解 。 

内 点 法 的 惩罚 策略 是 : 从 一 切 可 行 点 开始 迭代 , 设法 使 迭代 过 程 始终 保持 在 可 行 域内 部 进行 。 
为 此 ， 在 可 行 域 的 边界 设置 一 道 “ 墙 "。 对 企图 穿越 这 道 “ 墙 ”的 点 ,在 目标 函数 中 加 入 相应 的 
障碍 ， 越 接近 边界 ， 障 碍 就 越 大 ， 从 而 就 保证 迭代 点 始终 在 可 行 域内 部 进行 迭代 。 

采用 惩罚 函数 外 点 法 来 优化 约束 问题 时 ， 增 广 目标 函数 可 以 表示 为 

minF(x,o)= f(x)+op(x) 


m nh 
pW) = Dmax{0, gO + 过 | 万 CO 
j=1 

















i=l 


式 中 : f(x) 为 原 函 数 ; 6 为 惩罚 因子 ， 是 一 个 很 大 的 正 数 ; p(x) 为 惩罚 函数 。 一 般 地 ，a=p=2。 


13.5 ”大 规模 优化 问题 的 分 解 算 法 


在 实际 应 用 中 往往 是 变量 数 和 约束 数 都 相当 大 。 从 理论 上 讲 , 只 要 线性 规划 和 非 线 性 规划 是 
有 限 维 的 ， 使 用 一 定 的 方法 总 是 可 以 解 的 。 但 是 这 样 的 代价 是 出 现 所 谓 的 “ 维 数 灾难 ”的 问题 。 
如 果 能 将 原 问 题 分 解 成 若干 个 “ 子 问题 ”， 先 分 别 计算 这 些 变量 少 、 约 束 少 的 子 问题 ， 然 后 再 综 
合 考虑 它们 之 间 的 关联 ， 就 可 以 从 总 体 上 大 大 减少 机 时 。 


13.5.1 ”问题 的 描述 
设 系统 被 划分 成 C 个 子 系统 。 对 第 ;个 子 系统 (天 1.…,C ),w 为 对 总 系统 也 是 对 第 个子 系 
统 的 输入 , zx 为 由 其 他 子 系统 提供 的 中 间 输 入 , vw 为 对 第 1 个 子 系统 的 控制 变量 , ”为 子 系统 的 输 
出 , 是 子 系统 i 的 输出 , 子 系统 #1 的 输入 。 以 上 各 个 向 量 , 分别 具有 维 数 7 ;ts ;mt mt :zu 。 
对 于 一 个 给 定 的 总 系统 输入 向 量 w， 子 系统 可 用 下 述 向 量 方 程 描述 ; 


= gi(Vi,5) 
=h(vi, x5) 














子 系统 之 间 的 联系 为 
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= > jh 2-C 
如 


其 中 : my 为 ms xm, 矩阵， 表达 了 子 系统 之 间 的 耦合 。 


根据 拉 格 朗 日 法 原理 ， 可 得 出 最 优 解 应 满足 的 必要 条 件 。 
2 _% ti) x) 本 2 
Ee Ox Ve 
i 


= 


OO 

OL C 
= Dayp; =0 
ee 1 

ao 

Bh =0 

OL < 

-一 =x-yaz =0 
op 色 | 


上 述 方程 组 形成 了 两 组 递 阶 结构 的 分 解 协 调 算法 。 在 该 算法 中 ,上 级 和 下 级 之 问 不 断交 换 信 
息 , 下 级 子 系统 向 上 级 送出 反馈 变量 ,上 级 协调 器 根据 各 子 系统 来 的 反馈 变量 ,从 全 局 优化 角度 
出 发 向 下 级 给 出 协调 变量 ,进行 优化 迭代 ， 最 后 到 总 系统 的 最 优点 ， 如 图 13.1 所 示 。 


y， 


i 
协调 器 [下 | 
(总 体 优化 ) x 第 1 个 子 系统 


了 系 
下 级 | 《 子 问题 优化) (于 站 是 从 化) (于 站 优化) 小 


大 规模 问题 的 分 解 第 7 个 子 系统 
图 13.1 大 规模 优化 问题 


上 述 变量 中 ,可 以 采用 不 同 的 变量 做 协调 作用 。 相 应 地 ,形成 了 不 同 的 分 解 协调 算法 ， 下 面 
即 为 几 种 算法 。 


13.5.2 目标 协调 法 
以 拉 格 朗 日 乘 子 p; (二 1,2,…,N ) 为 协调 变量 , x 和 ;为 反馈 变量 , 算法 结构 见 图 13.2 所 示 。 
设 原 问题 为 极 大 化 问题 ， 则 子 系统 的 子 问题 可 写成 

















6 
max[fi(vi,xi)+ 商洛 Dpjaizi] 
及 


3; = gi(Vi,%) 
子 间 题 拉 格 朗 日 函数 为 
六 
L = fi(Vi,5) + (gi -3)+P7 -Dprapz 
二 
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协调 器 协调 器 


























Xe 
人 | 子 系统 C 子 系统 1 |.. .| 子 系统 C 
上 下 级 协调 关系 目标 协调 法 


图 13. 2 目标 协调 法 
令 叉 (p), 二 (p), 站 (P) 为 子 问题 的 解 。 求 解 第 一 级 子 问 题 的 步骤 如 下 : 


(1) 由 上 级 给 定 协调 变量 值 p; ( 关 12,…,N)， 求 Ai 
(2) 由 pr my， 求 zi 好 

(3 ) 由 x、 vi, 求 天 

(4) 由 闻 (P)， 字 (O) 反 馈 到 上 级 。 


13.5.3 ”模型 协调 法 


取 关 联 变量 ;; 作 为 协调 变量 ,使 用 拉 格 朗 日 乘 子 p; 和 ji 为 反馈 变量 。 
下 级 子 系统 的 子 问题 可 写成 


























max fi(vi,%) 


51= gi(Vi,%) 
六 三 D0: 
及 
拉 格 朗 日 函数 可 写作 
c 
Li = fv rn) +H [gi x) 3) + pT (x -Dai) 
六 
求解 问题 的 步骤 如 下 。 
(1 ) 由 上 级 给 定 协调 变量 ， 即 关联 量 的 预 估 值 5 ( 关 12,…:C)， 求 3 
(2) 由 二 和， 求 v、 pa; 
(3) 由 sw 和 wi、pi， 求 pi:， 然后 将 pj 和 pi 反馈 给 上 级 。 


13.5.4 ”混合 协调 法 




















将 模型 协调 法 和 目标 协调 法 相 结 合 ， 在 下 级 取 p; 和 s; 协 调 变 量 ,给 定 后 送 给 上 级 ; 上 级 以 


志和 ji 以 反馈 变量 。 
在 给 定 和 jp 后 ， 下 级 子 问 题 可 写作 





max[fi(vi,%)+ 2 3 2a577)] 
及 


5 = gi(Vi,%) 
相应 地 ， 子 问题 拉 格 朗 日 函数 为 
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© 
五 = fr) tA [gv x)— 3) + PY (x 一 >.413) 
el 


子 问题 的 解法 步骤 如 下 : 
(1 ) 在 上 级 给 定 协调 变量 户 和 = (天 12,-,C)， 求 二 和 他 
(2 ) 由 pi 和 z, 求 xw、vi、p， 并 将 x 和 jp 反馈 给 上 级 。 


13.6 ”其 他 优化 方法 


随 着 应 用 和 需求 的 不 断 扩展 , 优化 算法 理论 的 研究 也 得 到 了 长 足 的 发 展 。 就 优化 机 制 与 行为 
来 讲 , 目前 工程 中 常用 的 优化 算法 除了 经 典 算法 外 ,出 现 了 许多 其 他 优化 算法 如 构造 型 算法 、 改 
进 型 算法 、 基 于 系统 动态 演化 的 算法 、 混 合 型 算法 和 群体 智能 算法 等 。 

(1 ) 构造 型 算法 。 用 构造 的 方法 快速 建立 问题 的 解 ， 这 种 算法 的 优化 质量 通常 较 差 ， 难 以 
满足 工程 需要 。 例 如 调度 问题 中 的 典型 构造 型 方法 有 Johnson 法 、Palmer 法 、Gupta 法 等 。 

(2 ) 改进 型 算法 ,或 称 邻 域 搜索 算法 。 从 任 一 解 出 发 ， 通 过 对 其 邻 域 的 不 断 搜 索 和 对 当前 
和 解 的 蔡 换 来 实现 优化 。 根 据 搜索 行为 ， 其 又 可 分 为 局 部 搜索 法 和 指导 性 搜索 法 。 

@ 局 部 搜索 法 。 利 用 局 部 优化 策略 在 当前 解 的 领域 中 贪 禁 搜索 ， 如 只 接受 优 于 当前 解 的 状态 

作为 下 一 个 当前 解 的 仆 山 法 ; 接受 当前 解 领 域 中 的 最 好 解 作为 一 个 当前 解 的 最 陡 下 降 法 。 

@ 指导 性 搜索 法 。 利 用 一 些 指导 规则 来 指导 整个 解 空间 中 优良 解 的 探索 , 如 模拟 退火 算法 、 

文化 算法 、 差 分 进行 算法 、 遗 传 算法 、 蚁 群 算法 等 各 种 群体 智能 算法 。 

(3 ) 基于 系统 动态 演化 的 方法 。 将 优化 过 程 转化 为 系统 动态 的 演化 过 程 ， 基 于 系统 动态 演 
化 来 实现 优化 ， 如 神经 网 络 和 混沌 搜索 等 。 

(4) 混合 型 算法 。 将 上 述 各 算法 从 结构 或 操作 上 进行 混合 而 产生 的 各 类 算法 ， 如 文化 基因 
算法 等 。 

鉴于 实际 工程 问题 的 大 规模 、 强 约束 、 非 线性 、 从 极 值 、 多 目标 、 建 模 困 难 等 特点 ， 寻 找 一 
种 适合 于 大 规模 问题 的 具有 智能 特征 的 并 行 算法 已 成 为 相关 学 科 的 主要 研究 目标 和 引信 注目 的 
研究 方向 。 

近 20 年 来 ， 一 些 新 颖 的 优化 算法 ， 如 人工 神 经 网 络 、 混 沌 、 遗 传 算法 、 进 化 规划 、 模 拟 退 
火 、 禁 忌 搜 索 及 其 混合 优化 策略 等 ,通过 模拟 或 揭示 某 些 自然 现象 或 过 程 而 得 到 发 展 , 其 思想 和 
内 容 涉 及 数学 、 物 理 、 生 物 进 化 、 人 工 智能 、 神 经 科学 和 统计 力学 等 方面 ， 为 解决 复杂 问题 提供 
了 新 的 思想 和 手段 。 这 些 算法 的 独特 优点 和 机 制 ， 引起 了 国内 外 学 者 的 广泛 重视 ,并 掀起 了 该 领 
域 的 研究 热潮 ， 且 在 诸多 领域 得 到 了 成 功 应 用 。 近 些 年 来 ， 随 着 人 工 智 能 和 人 工 生命 的 兴起 ， 出 
现 了 一 些 新 型 的 仿生 算法 ,其 中 较 具 代表 性 的 有 蚁 群 算法 、 粒 子 群 算法 和 人 工 鱼 群 算法 。 这 些 算 
法 的 产生 为 优化 问题 的 解决 提供 了 新 的 思路 ， 更 加 推动 了 群体 智能 优化 研究 的 发 展 。 

值得 指出 的 是 , 对 于 所 有 函数 集合 ,并 不 存在 万 能 的 最 佳 优化 算法 , 所 有 算法 在 整个 函数 类 
上 的 平均 表现 度量 是 相同 的 , 关于 优化 算法 的 研究 应 从 寻找 所 有 可 能 函数 类 上 的 通用 优化 算法 转 
变 ， 包括 以 下 两 个 方面 : 

(1 ) 以 算法 为 导向 ， 确 定 其 适用 的 问题 类 。 对 于 每 一 个 算法 ， 都 有 其 适用 的 和 不 适用 的 问 
题 : 对 于 给 定 的 算法 ， 要 尽 可 能 通过 理论 分 析 和 实际 应 用 ， 找 出 其 适用 的 范围 ， 归 纳 特定 的 问题 
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类 ， 使 其 成 为 一 个 指示 性 算法 。 

(2 ) 以 问题 为 导向 ， 确 定 其 适用 的 算法 。 对 于 较 小 的 特定 问题 类 或 特定 的 实际 应 用 问题 ， 
设计 出 具有 针对 性 和 适用 的 算法 。 实 际 上 ， 大 多 数 在 优化 算法 方面 的 研究 都 属于 这 一 范畴 。 
13.7 基于 MATLAB 的 目标 优化 方法 


例 3.15 求 函数 f(x) =e sinx? 在 [0,5] 区 间 上 的 极 大 值 和 极 小 值 。 


解 : 
此 函数 的 图 像 及 其 导数 的 图 像 如 图 13.3 所 示 ， 其 中 左边 图 像 是 函数 原 像 ， 右 边 是 一 阶 、 二 
阶 导 数 的 图 像 。 从 图 中 可 看 出 ， 此 函数 在 指定 的 区 间 中 有 多 个 极 大 值 和 极 小 值 。 
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图 13.3 函数 图 像 及 其 导数 的 图 像 

在 MATLAB 中 ,可 以 用 fzero 和 fsolve 求 出 方程 的 根 ， 但 是 这 两 个 函数 都 是 计算 给 定 初 值 
附近 的 根 ， 无 法 直接 计算 整个 区 间 内 所 有 的 根 。 

解决 方法 是 在 整个 区 间 上 等 间距 地 取 多 个 取样 点 ， 即 xix2,… xn， 然 后 计算 出 相应 的 函数 值 
xD)Ax2),… fn)。 对 上 述 各 点 逐一 判断 ， 计 算 函 数 F(X)=fxx DUAxD ，2 志 km 是 否 非 正 。 如 果 
Fo 入 0， 那 么 就 用 函数 fzero 计算 附近 的 根 ， 这 样 通过 多 次 调用 函数 fzero 就 可 以 得 到 整个 区 
间 上 所 有 的 根 。 
>> syms x 
>>fx=exp (-X) *sin (x^2) ;ds=diff (fx) ;d2s=diff (fx, 2); 
>> £1=@ (x)exp (-X) .*sin (x.^2); 
>> £2=@ (x)=exp (xX) .531in(R. 2)42.*0rp( x) +c08 (xX. 2) .x 
>>£3=8 (x)exp (-x) .*sin (Xx.^2)=4*exp (=-X) -+*COS(X-^2) .*x-A*exp (~X) .*sin (xX.*2) .*X.^2... 


cep(= XX) eo 人) 六 
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>> x=0:0.010:57Y1=fl (x);subplot (121); plot(x,y1); 
>> subplot (122) ;y2=f£2 (x) ;plot (x, y2) ;hold on;y3=f£3 (x);plot (x,y3); 


>>ds=char (ds); gs 把 ds 的 类 型 从 符号 型 变 为 字符 串 型 
>> ds=strrep(dS,"*",".*"); s 用 点 乘 代替 乘 号 
Sy destrrepn(ds oN) 用 运算 ".^" 代 替 乘 号 "“" 


>> x0=fzeros (inline(ds), [0 5]); 
>> d2f=subs (d2s, x0); 
>> xM=x0 (d2f<0) 
XM=1.0637 2.7705 3.7422 4.5066 
>> xm=x0 (d2f>0) 
xm=0 2.1167 3.2932 4.1423 4.8435 
例 3.16 计算 下 列 函数 在 xyE[-3 3] 的 极 值 : 


== f(x,y)=3(1— Xe 0+) -10G- 3 一 Je -ee 


解 : 

与 一 级 导数 的 求解 类 似 , 计算 二 阶 导数 需要 同时 考虑 两 个 自 变量 方向 的 一 阶 导数 , 当 它 们 同 
时 为 零 时 ， 也 就 对 应 着 极 值 点 。 可 以 通过 极 大 值 还 是 极 小 值 判断 零点 与 周围 邻近 点 的 大 小 关系 。 

在 计算 本 题 时 ， 先 用 jacobian 函数 计算 kx) 的 5 个 偏 导数 ， 然 后 用 函数 fsolve 解 出 方程 组 
的 全 部 根 ( 此 时 应 将 导数 函数 式 转化 为 字符 串 型 变量 )， 继 而 得 到 相应 驻 点 坐标 。 下 面 给 出 其 中 
的 部 分 代码 : 
>>syms xy; 
>>2=3% (l=X) 2 exp (= (2 (VL 2)=102(X/S = 3 = 
人 

= /Sorp( = (rl YA2)2 

>>dF=jacobian (z, [x, y]) ;Sl=char (dF (1)) ;S$S2=char (dF (2) ) ;Sl=strrep (S1,'*"',"'.*"'); 
>>31=3trreplsl eM MAS2=strrep(S2, "2=Stireopn(S2r 
>>fun=["'["',S1,"',"',S2,"']"'];fun=strrep (fun, "exp', 'q');fun=strrep (fun, 'x', 'x(1)" 
);fun=strrep (fun, 'y', 'x(2)"'); 


fun=strrep (fun, 'q', 'exp');options=optimset ('fsolve');options.TolFun=1le-8; 


例 3.17 求 下 列 向 量 型 离散 数据 的 极 值 : 太 [8 2 1074369 5 1]。 
解 : 
寸 于 离散 情况 ， 可 以 利用 差分 代替 微分 来 求解 极 值 。MATLAB 中 的 di 在 函数 既 可 以 计算 函 
数 式 的 微分 式 ， 也 可 以 用 来 计算 差分 。 在 计算 差分 后 ， 如 果 相 邻 3 个 点 的 中 间 一 点 同时 大 于 (或 
者 小 于 ) 两 侧 的 点 ， 那 么 这 一 点 就 是 极 大 值 ( 或 极 小 值 )。 

2 

>> y=mymazmin (x); 差分 法 求 极 值 函 数 
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>> y=max: [10 9] min: [2 3] 

例 3.18 ”用 最 速 下 降 法 求解 下 列 无 约束 非 线性 规划 问题 : 
Ilinf = 驴 4#25 = 

解 : 

根据 最 速 下 降 法 的 原理 ， 可 编程 计算 : 

>> [£0,x]=zuisuprog ([2;2]) 

£0=1.0389e-013 X=1.0e-006 *[-0.3223,-0.0000] 


例 3.19 用 和 牛顿 法 求解 下 列 非 线 性 规划 问题 : 


minf =x# +25xf 42x2 x =(2,2) 


解 : 

根据 牛顿 法 的 原理 ， 可 编程 计算 ， 其 中 为 了 提高 计算 精度 ， 在 迭代 时 采用 变 步 长 方法 。 
>> [zx,£0]=newtonprog ([2;2]) g 最 速 下 降 法 函数 

x= -0.0000 -0.0016 f0=1.5482e-010 $ 计 算 结 果 


例 3.20 在 无 约束 非 线 性 规划 方法 中 , 遇 到 问题 的 目标 函数 不 可 导 或 难以 表达 导 函 数 的 解析 
式 时 ， 人 们 一 般 需 要 使 用 直接 搜索 方法 。 同 时 ， 由 于 这 些 方法 一 般 都 比较 直观 和 易于 理解 ， 因 而 
在 实际 应 用 中 常 为 人 们 所 采用 。 这 些 方法 中 较为 典型 的 便 是 Powell 方法 。 请 用 此 法 ， 求 下 列 函 
数 的 最 小 值 : 


minf =10(% +x —5) +(m —x +r) +(x +xm) x =(0,0,0)7 


解 : 

根据 powell 算 法 原理 ， 可 编程 计算 。 

先 编写 以 下 函数 以 求 Rxe1yxz,x3) 的 函数 值 ， 然 后 利用 powell 函 数 求 极 值 。 由 于 在 计算 过 程 中 ， 
涉及 符号 计算 ， 所 以 计算 速度 较 慢 ， 需 迭代 31 次 ， 才 能 得 到 结果 。 

function Y=my_funl (a) 

SYS EX 2 33 

f=10* (X1L+X2-5)^4+ (X1-X2+X3)^2+ (X2+X3) ^67 

y=subs (f£, {x1, x2, x3},a); 

然后 在 MATLAB 的 工作 窗口 ， 输 入 下 列 命令 : 

>> x0=[0 0 0];y=powell (x0); 

> Y= [3:3333 L6667 =165667 val: 1.58276=03Y 

例 3.21 在 MATLAB 工具 箱 中 ， 用 于 求解 无 约束 极 值 问题 的 函数 有 fiminunc 和 fiminsearch。 
一 般 来 说 ， 当 所 选 函 数 高 度 不 连续 或 者 变化 剧烈 时 ,使 用 fminsearch 较 好 ， 而 当 函 数 中 的 变量 客 
次 大 于 时 ， 使 用 fminune 要 比 fminsearch 有 效 。fiminunc 的 基本 命令 是 : 
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[X,Fvall=fminunc(Fun,X0,Options,P1,P2,…) 

其 中 的 返回 值 x 是 所 求 得 的 极 小 点 ，fval 是 函数 的 极 小 值 。fun 是 一 个 m 文 件 ， 当 fun 只 有 一 个 
返回 值 时 , 它 的 返回 值 是 函数 hw); 当 fun 有 两 个 返回 值 时 , 它 的 第 二 个 返回 值 是 Rx) 的 梯度 向 量 ; 
当 fun 有 三 个 返回 值 时 ， 它 的 第 三 个 返回 值 是 /9 的 二 阶 导 数 阵 ( Hessian 阵 )。x0 是 向 量 x 的 初 
始 值 ，options 是 优化 参数 ， 可 以 使 用 默认 参数 。p1，p2 是 可 以 传递 给 fun 的 一 些 参 数 。 

求 下 列 函 数 的 最 小 值 : min /=100(e -地 +(x》 

解 : 

编写 求 函 数值 及 导数 值 的 函数 fun1: 

function [f,g]=funl (x); 

f=100* (x (2) -x(1)^2)^2+(1-x(1))^2; 





g=[-400*x(1)* (x(2)-x(1)^2)-2*(1-x(1));200* (x(2)-x(1)^2)]; 


然后 ， 在 工作 窗口 输入 命令 ， 即 可 求 得 函数 的 极 小 值 。 


>> options = optimset ('Gradobj', 'on'); [x, y]=fminunc ('funl', rand(1,2),options); 

















>> x=1.0000 1.0000 

>> y=1.2424e-018 

在 求 极 值 时 ， 也 可 以 利用 二 阶 导 数 ， 此 时 需 编写 求 一 级 及 二 级 导数 值 的 函数 ， 然 后 利用 

fminunc 就 可 求 得 最 值 。 

function [f,df,d2f]=fun3 (x); 

ELO0* (x(2) TAL 2) 2 (LD 2 

df=[ A004z(1) (rs(2) (L2200 (e222 
d2f=[-400*x(2)+1200*x(1)^2+2, -400*x(1)—-A400*x(1),200]; 

>> options = optimset ('GradObj','on','Hessian','on'); 


>> [x,y]=fminunc('fun3',rand(1,2),options); 


例 3.22 带 有 约束 条 件 的 极 值 问题 称 为 约束 极 值 问题 , 也 叫 规划 问题 。 求 解约 束 极 值 问题 要 
比 求解 无 约束 极 值 问题 困难 得 多 。 为 了 简化 其 优化 工作 , 可 采用 以 下 方法 : 将 约束 问题 化 为 无 约 
束 问题 ;将 非 线 性 规划 问题 化 为 线性 规划 问题 , 以 及 能 将 复杂 问题 变换 为 较 简单 问题 的 其 他 方法 。 
求解 下 列 二 次 规划 问题 。 
min f(x) =2x —4mx, +4x? 6% —3x, 
加 二 芭 导 久 
st142 +x, 9 
0 


解 : 
在 MATLAB 中 ,求解 二 次 规划 的 是 Quadprog 函数 ， 其 基本 用 法 如 下 : 


[X, Fval]= Quadprog (H,F, A,B, Aeq,BEQ, Lb, Ub, X0,Options) 


对 于 本 例 有 : 
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> Fr[4,-4;-4,8] ;EE[-6;-3];a=[l,1;4,1];b=[3;9]; [x,value]=quadprog (h, f,a,b, [], [], zeros (2,1)); 
>> z=1.9500 1.0500 value=-11.0250 


例 3.23 求 下 列 非 线性 规划 : 
min f(x)= + +8 
对 -b 宇 0 


st.1—n 一 芝 +2=0 
0 


解 : 

利用 罚 函数 法 , 可 将 非 线性 规划 问题 的 求解 转化 为 求解 一 系列 无 约束 极 值 的 问题 。 其 基本 思 
想 是 ,利用 问题 中 的 约束 函数 作出 适当 的 罚 函数 , 由 此 构造 出 带 参数 的 增 广 目标 函数 ,把 问题 转 
化 为 无 约束 非 线性 规划 问题 。 它 主要 有 两 种 形式 : 一 种 叫 外 罚 函 数 法 ; 另 一 种 叫 内 罚 函 数 法 。 党 
见 的 是 外 罚 函数 法 ， 它 是 将 下 列 优化 问题 

min f(x) 

gi(X)EO0 i=1,2,…,r 
St.1h(X)0 j=1,2,…,s 

K(x)=0 m=1,2,…,t 








取 一 个 充分 大 的 数 M>0， 构 造 函数 : 
P(x,M)= f(x)+ MY max(g;(x).0)— MY min(h (2),0)+ My | K(x)| 
i=1 i=1 i=1 


对 于 本 题 ， 先 编写 如 下 test 函 数 : 
function g=test (x) 
M=50000; f=x (1) ^2+x (2) ^2+8; 
g=f-Mxmin (x (1),0)-M*min (x (2) ,0)-M*min (x (1)^2-x(2),0)+.. 
Mxabs (-x (1) -x (2) ^2+2); 
%g=f-M*sum (min ([x';zeros (1,2)]))-M*min (x (1)^2-x(2),0)+..  % 男 一 种 表示 形式 
% Mrabs (-X(1)-X(2)^2+2) 7 
&%g=f-Mxmin (min (X) , 0) -Mxmin (x (1) ^2-x (2) ,0)+.. gs 另 一 种 表示 形式 
® M*(-x(1)-x(2)^2+2)^2; 


在 MATLAB 工 作 窗 口 输入 命令 : 


>> [x,y]=fminunc('test',rand(2,1)) 


Xx=1.02860.9856 y=10.0297 


例 3.24 求 函数 族 {f(), 太 (DD),(), 有 4(D),()} 取 极 大 极 小 值 时 的 x 值 ， 其 中 : 
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f(D)=20 + -48m 一 40x +303 
fh(W) = 32 
h(x) =n+3x,—18 
f(x)=—n -zo 
ft) = 和 +x -8 
解 : 
在 MATLAB 中 ，, 求 极 大 极 小 值 的 函数 是 fminimax， 它 可 以 解决 如 下 形式 的 规划 问题 : 
mbm FO)} 
A*x<b 
Aeq*x= Beqg 
st.iC(x)<0 
Ceq(x)=0 
LB<x<UB 
其 基本 用 法 如 下 : X=fminimax(Fun,X0,A,B,Aeq,Beq,Lb,Ub,Nonlcon) 
先 编写 以 下 函数 : 
function f=fun8 (x) 
f=[2*x(1)^2+x(2)^2-48*x(1)—-40*x (2)+304 
= 2 
w= 
= (Ey 
x(1)+x(2)-8]; 


在 MATLAB 工 作 窗 口中 ,输入 命令 便 可 以 做 到 : 
>> [x,y]=fminimax (@fun8, rand(2,1)) 
x=4.0000 4.0000 
y= 0 
-64.0000 
-2.0000 
-8.0000 
0 
例 3.25 在 求解 最 优 问题 时 ， 除 用 命令 行 方法 外 ,还 可 以 利用 MATLAB 优化 工具 箱 中 的 
optimtool 的 GUI 方法 。optimtool 可 应 用 到 所 有 优化 问题 的 求解 , 计算 结果 可 以 输出 到 MATLAB 
工作 空间 中 。 在 MATLAB 的 较 高 版 本 中 ,此 GUI 中 的 优化 方法 ( Solve ) 不 仅 包含 了 统计 工具 
箱 中 的 各 种 优化 函数 ， 而 且 还 提供 遗传 算法 、 模 拟 退 火 等 优化 方法 。 
请 利用 优化 问题 的 GUI 方法 求解 下 列 非 线性 规划 问题 : 
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min f(Co = 闻 + 闻 + 妆 +8 


对 -b+ 过 宇 0 


at+R+B E20 


st.1 -1 — 芝 +2=0 


= 
w+27x3 =3 


三 
A 二 0 


解 : 


首先 编写 目标 函数 文件 和 约束 条 件 函 数 文件 : 


function f=fun4 (x) 
=sum(x.^2)+8; 


function [g,h]=fun5 (x) 


$ 目 标 函 数 


g=[-x(1) ^2+x (2) -x (3)^2;x(1) +x(2)^2+x (3)^3-20] ; % 非 线性 不 等 性 约束 


h=[-x(1) -x (2) ^2+2; x (2)+2*x (3) ^2-3]; 
然后 在 MATLAB 命 令 窗 口 运行 optimtool， 
未 填 入 的 参数 取 值 为 空 或 者 为 默认 值 , 然后 用 单 和 
的 Export toWorkspace… 命 令 ， 把 计算 结果 输出 到 MATLAB 工 作 空 间 中 去 。 此 例 中 以 a ( 
结构 体 ) 代表 求解 结果 。 


>> a.x=0.55221 .20330.9478 
>> AasEval=10s651Y 





Eile Help 


$ 非 线性 等 式 约束 





就 打开 图 形 界面 , 如 图 13.4 所 示 , 填 入 有 关 的 参数 ， 














% 函 数 最 小 值 时 的 各 变量 值 
% 函 数 最 小 值 
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图 13.4 求解 优化 问题 的 GUI 
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14.1 可 视 化 技术 概述 


计算 机 科学 和 技术 的 进展 在 科学 工程 和 商业 领域 导致 了 许多 不 可 预测 的 可 能 性 。 与 此 同时 ， 
测量 的 自动 化 、 网 络 传 感 、 过 程 的 数字 化 和 大 量 的 计算 机 仿真 产生 了 海量 的 数据 ,数据 的 增长 量 
超过 人 分 析 理 解 的 能 力 。 可 视 化 提供 了 一 种 解决 这 类 问题 的 新 工具 。 

一 般 意义 下 的 可 视 化 定义 为 : 可 视 化 是 一 种 使 复杂 信息 能 够 容易 和 快速 被 人 理解 的 手段 , 是 
一 种 聚集 在 信息 重要 特征 的 信息 压缩 语言 ， 是 可 以 放大 人 类 感知 的 图 形 化 表示 方法 。 

可 视 化 技术 也 称 数据 可 视 化, 它 旨 在 凭借 计算 机 的 强大 信息 处 理 能 力 以 及 计算 机 图 形 学 基本 
算法 及 可 视 化 算法 将 计算 机 进行 的 大 规模 科学 ( 工程 ) 计算 结果 及 其 产生 的 数字 数据 、 信 息 和 知 
识 转换 成 静态 或 动态 图 像 的 过 程 , 并 允许 人 们 通过 交互 手段 控制 数据 的 抽取 和 画面 显示 , 并 且 获 
得 对 数据 更 深层 次 的 认识 。 它 具有 以 下 的 特点 : 

。 ”交互 性 。 用 户 可 以 方便 地 以 交互 的 方式 管理 和 开发 数据 ; 

。 ”多 维 性 。 可 以 表示 对 象 或 事件 的 数据 的 多 个 属性 或 变量 ; 

。 ”可 视 性 。 数 据 可 以 用 图 像 、 曲 线 、 二 维 图 形 、 三 维 图 形 和 动画 显示 ,并 可 对 其 模式 和 相 

关 关 系 进行 可 视 化 分 析 。 

数据 可 视 化 技术 对 于 大 型 数据 集 的 分 析 及 浏览 有 着 非常 重要 的 作用 , 它 可 以 大 大 加 快 数据 处 
理 速度 , 特别 是 在 数据 挖 气 运 行 过 程 中 ,可 视 化 技术 可 以 给 用 户 提供 交互 操作 ,并 可 以 从 中 为 用 
户 反馈 重要 信息 。 尤 其 在 用 户 对 数据 描述 知之 甚 少 、 对 挖掘 目的 不 明确 的 情况 下 更 为 有 效 。 例 如 
利用 可 视 化 技术 对 环境 污染 的 传播 、 全 球 臭氧 分 布 、 建 筑 物 与 周围 气流 、 大 面积 水 域 污染 等 问题 
进行 模拟 、 试 验 , 分 析 产 生 的 结果 ,可 为 人 类 在 环境 生态 学 方面 提供 切实 可 行 预报 措施 ; 利用 可 
视 化 技术 在 地 质 勘 探 中 , 利用 自然 地 震波 或 人 工 爆破 产生 的 声波 在 不 同 地 质 构 造 层 中 的 传播 速度 
和 衰减 程度 的 不 同 特点 , 利用 反 演变 换 重 构 表示 地 质 结构 的 体 数 据 ， 以 帮助 寻找 新 的 矿产 ,并 确 
保 以 发 现 矿产 的 最 佳 状态 ， 取 得 良好 的 经 济 效益 。 

可 视 化 数据 挖掘 不 仅 局 限于 用 图 形 图 像 表 现 数据 ， 还 要 能 够 发 现 其 中 隐 含 的 信息 和 知识 。 运 
用 数据 可 视 化 技术 不 仅 能 够 展现 数据 挖 据 过 程 得 到 的 数据 , 还 能 补充 数据 挖 气 过 程 , 增加 对 数据 挖 
掘 算法 的 理解 。 通 过 在 数据 挖掘 过 程 中 使 用 可 视 化 技术 。 

。 能够 在 挖掘 过 程 中 随时 剔除 异类 和 噪声 数据 ， 提 高 挖掘 质量 ; 

。 能够 利用 人 类 的 模式 识别 能 力 评 估 和 提高 挖掘 出 的 结果 模式 的 有 效 性 ; 

。 ”建立 用 户 与 数据 挖掘 系统 交互 的 良好 沟通 通道 ， 能 够 使 用 户 利用 专业 背景 来 约束 挖掘 ， 

不 需要 具备 复杂 的 数学 和 统计 学 知识 ， 改 善 挖掘 结 果 ; 
。 ”通过 对 数据 挖 据 结 果 的 可 视 化 , 使 用 户 获得 结果 模式 的 直观 理解 , 打破 传统 挖掘 算法 的 
黑 盒 模式 ， 使 用 户 对 挖 气 系 统 的 依赖 程度 大 大 提高 。 

可 视 化 技术 与 数据 挖掘 主要 从 以 下 几 个 方面 相 结 合 ， 形 成 可 视 化 数据 挖掘。 

(1) 数据 可 视 化 : 在 进行 数据 挖掘 算法 之 前 对 数据 进行 可 视 化 研究 ， 将 数据 库 或 者 数据 仓 
库 中 的 数据 ， 从 不 同 粒 度 和 不 同 的 抽象 层次 或 将 属性 、 维 度 进行 联合 之 后 ， 把 数据 表 转 换 为 可 视 
化 结构 ， 并 以 各 种 不 同类 型 的 形式 展现 在 用 户 的 面前 。 

(2 ) 数据 挖掘 过 程 可 视 化 : 这 种 方法 将 可 视 化 技术 融入 到 数据 挖 抉 过 程 中 ， 在 交互 式 的 可 视 
化 数据 挖掘 中 使 用 可 视 化 工具 , 用 户 可 以 通过 设置 参数 来 控制 整个 挖掘 过 程 的 进度 和 质量 , 并 且 依 
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靠 感觉 、 具 备 的 领域 知识 以 及 挖掘 算法 的 结果 共同 做 出 决策 ， 是 最 理想 的 可 视 化 数据 挖掘 过 程 。 

(3 ) 数据 挖掘 结果 可 视 化 : 将 挖掘 后 得 到 的 知识 或 者 结果 用 可 视 化 的 形式 表示 出 来 ， 使 原 
本 抽象 的 挖掘 结果 信息 简明 化 ,加 速 人 们 对 结果 信息 的 特征 、 关 系 、 模 式 和 趋势 等 的 理解 ， 从 而 
对 挖掘 结 果 的 正确 性 作出 判断 ， 得 出 科学 的 挖掘 结果 。 用 户 可 以 根据 结果 信息 ,和 迭代 的 调整 算法 
的 参数 ， 使 得 挖掘 结果 更 符合 人 们 的 需求 。 


14.2 ”可视化 技术 分 类 
根据 可 视 化 对 象 的 不 同 ， 可 视 化 技术 可 分 成 以 下 四 类 。 


14.2.1 数据 可 视 化 


数据 可 视 化 是 运用 计算 机 图 形 学 和 图 像 处 理 技术 , 将 数据 转换 为 图 形 或 图 像 在 屏幕 上 显示 出 
来 ， 并 进行 交互 处 理 的 理论 、 方 法 和 技术 。 

数据 可 视 化 的 重点 是 将 多 维 数据 在 二 维 或 三 维 空间 内 显示 , 这 对 初步 的 数据 分 类 理解 是 有 意 
义 的 。 


14.2.2 ”科学 计算 可 视 化 


科学 计算 可 视 化 是 利用 计算 机 图 形 学 和 图 像 处 理 技术 , 将 工程 测量 数据 、 科 学 计算 过 程 中 产 
生 的 数据 及 计算 结果 转换 为 图 形 图 像 在 屏幕 上 显示 出 来 ， 并 进行 交互 处 理 的 理论 、 方 法 和 技术 。 

科学 计算 可 视 化 技术 主要 有 两 个 难点 : 一 是 分 类 , 研究 如 何 判断 出 可 视 化 对 象 的 类 别 ; 二 是 
绘制 ,研究 如 何 将 可 视 化 对 象 真实 、 高 效 地 显示 在 屏幕 上 ， 使 得 用 户 可 交互 式 查 看 。 


14.2.3 ”信息 可 视 化 


信息 可 视 化 技术 是 指 利用 计算 机 支撑 的 、 交 互 的 、 对 抽象 数据 的 可 视 表示 , 来 增强 人 们 对 这 
些 抽象 信息 的 认 知 。 信 息 可 视 化 是 将 非 空间 数据 的 信息 对 象 的 特征 值 抽取 、 转 移 、 映 射 、 高 度 抽 
象 与 整合 , 用 图 形 、 图 像 、 动 画 等 方式 表示 信息 对 象 内 容 特 征 和 语义 的 过 程 。 信 息 对 象 包括 文本 、 
图 像 、 视 频 和 语音 等 类 型 ， 它 们 的 可 视 化 是 分 别 采 用 不 同 模型 方法 来 实现 。 

信息 可 视 化 方法 根据 不 同 的 分 类 标准 进而 可 分 为 不 同类 别 , 通常 按照 信息 资源 本 身 的 特征 可 
将 其 划分 为 七 类 。 

(1) 一 维 信息 可 视 化 。 一 维 信息 是 简单 的 线性 信息 ， 如 文本 ， 或 者 是 一 列 数字 。 

(2 ) 二 维 信息 可 视 化 。 二 维 信息 是 指 包 括 两 个 主要 的 信息 。 例 如 宽度 和 高 度 可 以 描述 事物 
的 大 小 , 事物 在 x 轴 和 y 轴 的 位 置 表示 了 它 在 空间 的 定位 , 城市 地 图 和 建筑 平面 图 都 属于 二 维 信 
息 可 视 化 。 

(3 ) 三 维 信息 可 视 化 。 三 维 信息 通过 引入 体积 的 概念 ， 超 越 了 二 维 信息 。 计 算 机 科学 计算 
可 视 化 都 是 三 维 信息 可 视 化 ， 因 为 科学 计算 可 视 化 的 主要 目的 就 是 表示 现实 的 三 维 物体 。 

(4 ) 多 维 信息 可 视 化 。 多维 信息 是 指 在 信息 可 视 化 环境 中 的 那些 具有 超过 三 个 属性 的 信息 。 
在 可 视 化 中 ， 这 些 属性 的 重要 性 是 不 言 而 喻 的 。 

(5 ) 层次 信息 可 视 化 。 抽 象 信息 之 间 的 一 种 最 普遍 关系 就 是 层次 关系 ， 如 文档 管理 、 图 书 
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分 类 等 。 对 于 大 型 的 层次 信息 结构 用 可 视 化 技术 来 表示 ， 可 以 更 加 简明 和 直观 。 

(6) 文档 (文本 ) 信息 可 视 化 。 在 如 今 的 信息 社会 中 ， 各 种 文档 信息 堆积 如 山 ， 可 视 化 技 
术 可 以 帮助 我 们 快捷 地 从 文档 信息 中 获取 我 们 所 需要 的 内 容 和 知识 。 文档 信息 可 视 化 可 以 分 为 两 
类 : 一 类 是 对 单个 文档 本 身 的 可 视 化 ; 另 一 类 是 对 大 型 文档 集合 的 可 视 化 。 

(7) 网 络 信息 可 视 化 。 目 前 ，Web 的 信息 已 分 布 在 遍及 世界 各 地 的 数 以 万 计 的 网 站 上 ， 网 
站 通过 文档 之 间 的 超 链接 彼此 交织 在 一 起 。 网 络 信息 可 视 化 可 以 帮助 人 们 理解 信息 空间 的 结构 、 
快速 发 现 所 需 信 息 、 有 效 防止 信息 迷途 。 
14.2.4 知识 可 视 化 

知识 可 视 化 是 在 科学 计算 可 视 化 、 数 据 可 视 化 、 信 息 可 视 化 基础 上 发 展 起 来 的 新 兴 研 究 领域 ， 
是 所 有 可 以 用 来 建构 和 传达 复杂 知识 的 图 解 手段 。 

知识 可 视 化 应 用 视觉 表征 手段 ， 促 进 群体 知识 的 传播 和 创新 ， 它 的 目标 是 传输 见解 、 经 验 、 


态度 、 价 值 观 、 期 望 、 观 点 、 意 见 和 预测 等 ， 并 以 这 种 方式 帮助 他 人 正确 地 重 构 、 记 忆 和 应 用 这 
些 知 识 。 


14.3 多维 数 据 可 视 化 


多 维 数据 可 视 化 是 数据 可 视 化 的 主要 内 容 ， 它 力图 在 二 维 或 三 维 空间 中 展示 多 属性 数据 特 
征 ， 尽 量 反 映 数 据 的 各 属性 信息 。 

利用 多 维 数据 可 视 化 : 

。 ”能 够 较为 容易 发 现 数据 变化 趋势 ， 如 数据 的 暴涨 暴跌 等 ; 

。 ”能 够 较为 容易 找 出 数据 异常 点 ; 

。 ”能 够 较为 容易 识别 数据 边缘 点 ， 如 最 大 值 、 最 小 值 、 边 界 数据 、 新 旧 数 据 等 ; 

。 ”能 够 较为 容易 显示 数据 分 类 和 分 徐 ， 并 发 现 不 同类 数据 的 特征 ; 

。 ”能 够 较为 容易 地 在 屏幕 上 显示 更 多 数据 点 ; 

。 ”能 够 较为 容易 地 提供 丰富 的 人 机 交互 功能 , 帮助 用 户 准 确 地 找到 特定 的 数据 , 并 实现 对 

数据 的 选择 、 缩 放 、 过 滤 等 基本 功能 。 
对 于 一 个 高 维 的 观察 对 象 ， 若 需要 用 二 维 图 中 的 多 个 点 球 , 则 称 为 二 维 多 点 表示 。 典 型 的 二 
维 多 点 表示 方法 有 雷达 图 、 平 行 坐标 、 脸 谱 图 、 三 角 多 项 等 。 它 能 直观 地 反映 同一 观察 对 象 中 各 
变量 之 间 的 关系 , 因此 适用 于 对 观察 对 象 进 行 特征 提取 , 是 多 维 数据 矩阵 的 行 向 量 表示 ,后 期 可 
利用 基 元 分 类 法 处 理 。 
二 维 单 点 则 是 表示 将 观察 对 象 中 的 全 部 或 部 分 变量 映射 为 二 维 图 中 的 一 个 点 。 该 类 表示 方法 
可 以 在 同一 幅 多 元 图 中 显示 多 个 观察 对 象 , 从 而 发 现 观察 对 象 之 间 的 关系 , 它 适用 于 数据 的 特征 
选择 、 聚 类 和 分 类 。 典 型 的 有 极 坐 标 映射 、 散 点 图 、 星 座 图 等 。 
图 形 有 助 于 对 所 研究 的 数据 进行 直观 了 解 。 如 何 将 多 维 数据 用 平面 图 来 表示 , 从 而 显示 它 的 
规律 一 直 是 人 们 关注 的 问题 。 从 20 世纪 70 年 代 以 来 ， 发 展 了 大 量 多 维 数据 的 图 形 表示 方法 。 
j 视 化 技术 主要 有 以 下 几 类 : 面向 像素 技术 、 几 何 映射 技术 、 基 于 图 标的 技术 、 分 层 可 视 化 
技术 、 基 于 图 表 的 可 视 化 技术 和 混合 可 视 化 技术 等 ， 如 图 14.1 所 示 。 
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图 14.1 可 视 化 技术 

(1 ) 面向 像素 技术 (Pixel - OrientedTechniques)。 其 基本 思想 是 把 每 个 数据 值 映射 为 一 个 颜 
色 像 素 。 由 于 一 个 像素 代表 一 个 数据 值 , 所 以 这 种 技术 可 以 同时 可 视 化 大 量 数据 。 面 向 像素 技术 
又 分 为 独立 于 查询 的 可 视 化 技术 和 基于 查询 的 可 视 化 技术 。 

(2 ) 几何 映射 技术 ( Geomettric Projection Techniques )。 几 何 映射 技术 的 目标 在 于 发 现 多 维 
数据 集 的 有 趣 映射 ， 主 要 包括 平行 坐标 、 散 点 图 矩阵 、 投 影 追踪 等 技术 ， 其 中 较 常见 的 是 平行 坐 
标 技术 。 

(3 ) 基于 图 标的 技术 ( Icon-Based Techniques )。 其 主要 思想 是 将 每 个 多 维 数据 映射 为 一 个 
图 标 , 通过 观察 这 些 图 标 组 成 的 图 形 来 发 现 知识 。 所 用 图 标 种 类 很 多 ,包括 脸形 图 标 、 彩 色 方 格 
和 矩阵、 条 形 人 等 。 目 前 最 适合 可 视 化 大 量 数 据 的 图 标 显 示 技 术 是 条 形 人 技术 。 

(4) 分 层 可 视 化 技术 ( Hierarchical Techniques )。 把 数据 分 成 不 同 的 层次 ， 并 在 不 同 的 层次 
上 显示 。 主要 用 来 可 视 化 多 变量 函数 。 这 类 技术 包括 N-Vision 、The Dimension stacking 、Treemaps 
等 技术 。 

(5 ) 基于 图 表 的 可 视 化 技术 ( Graph-Based Techniques )。 其 主要 思想 是 用 特定 的 布局 算法 、 
查询 语言 以 及 抽象 技术 来 有 效 地 把 数据 显示 成 一 个 大 的 图 表 , 从 生成 的 图 表 中 发 现 知识 。 这 类 技 
术 包 括 Hy+、Margritte 和 seeNet 等 技术 。 

(6 ) 混合 可 视 化 技术 ( Hybrid Techniques )。 混 合 可 视 化 技术 是 其 他 一 些 技术 的 混合 ， 目 的 
是 使 各 种 可 视 化 技术 互相 补充 ， 更 有 效 地 用 图 形 来 表现 数据 。 


14.3.1 平行 坐标 表示 法 


轮 廊 图 又 称 轮 廊 图 。 它 将 m 维 欧 氏 空 间 的 点 xi (xaxz,… xim )、 线 及 平面 映射 到 二 维 平面 上 
的 一 条 曲线 ,具体 步骤 如 下 。 
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(1) 作 笛 卡 儿 坐 标 系 ， 横 坐标 取 个 m 点 ， 以 表示 m 个 变量 。 

(2 ) 对 给 定 的 一 个 样本 (或 观察 值 )， 其 m 个 点 的 纵 坐 标 ( 即 高 度 ) 与 变量 取 值 成 正比 。 

(3 ) 连接 m 个 点 得 一 折线 ， 即 为 该 样本 的 一 条 轮廓 线 。 

(4) 对 于 具有 个 样本 的 数据 集 ， 重复 以 上 步骤 ， 可 画 出 n 条 折线 ， 构 成 整个 数据 集 的 轮 
廊 图 。 对 于 不 同 的 样本 ， 可 以 用 不 同 的 颜色 、 线 条 类 型 等 加 以 区 分 。 

轮廓 图 中 每 个 变量 都 被 一 致 对待 ， 便 于 使 用 者 可 以 通过 观察 多 维 数据 之 间 联 系 进行 数据 挖 
据 。 它 还 可 以 作为 其 他 方法 的 预 处 理 。 图 14.2 即 为 某 环境 质量 监测 数据 的 轮廓 图 。 
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轮廓 图 
图 14.2 轮廓 图 
轮廓 图 的 优点 是 将 多 维 数据 用 二 维 的 坐标 图 简单 地 表示 出 来 , 从 而 达到 降 维 的 效果 。 但 是 当 
维 数 增加 时 ,， 即 所 观察 的 变量 增加 , 映射 到 平行 坐标 上 表现 为 平行 坐标 轴 的 增加 ， 而 随 着 轴 数 的 
增加 必然 导致 轴 间 距离 过 于 接近 ， 使 得 图 形 凌乱 ， 有 碍 于 有 用 信息 的 发 现 ,并 且 坐 标 轴 刻度 虽然 
也 表示 变量 相互 间 的 关系 ， 但 是 容易 造成 混淆 ， 数 据点 连接 也 可 能 出 现 错误 。 


14.3.2 ”雷达 图 


雷达 图 又 称 蜂 蛛 网 图 , 是 一 种 能 对 多 变量 数据 进行 综合 分 析 的 形象 直观 的 图 形 表示 方法 。 由 
于 它 有 多 个 坐标 轴 , 可 以 在 二 维 平面 上 表示 多 维 数据 , 因此 利用 雷达 图 可 以 很 方便 地 研究 各 样本 
点 之 间 的 关系 。 

绘制 雷达 图 的 具体 步骤 如 下 。 

(1 ) 设 原始 数据 共有 个 变量 ， 先 画 一 个 圆 ， 由 个 点 把 圆周 等 分 成 个 部 分 。 

(2 ) 将 圆心 和 个 点 连接 起 来 ， 就 可 以 得 到 个 辐射 状 的 半径 ， 这 n 个 半径 就 作为 n 个 变 
量 的 坐标 轴 。 这 里 的 坐标 轴 只 有 正 半 轴 ， 因 此 只 能 表示 非 负 数据 ， 如 要 表示 负数 据 ， 则 需 进行 适 
当 的 变换 。 
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(3 ) 为 划分 刻度 方便 ,在 标记 坐标 轴 前 需要 对 原始 数据 进行 归 一 化 处 理 ， 然 后 对 归 一 化 后 的 
数据 六 用 下 式 作 非 线性 变换 

















fi =arctan(y,)+1 
Ai 
通过 该 变换 将 无 限 区 间 ( -wm，+w) 变换 到 有 限 区 间 [0，2]; 并 使 得 在 均值 附近 具有 良好 线 
性 ， 而 偏离 均值 越 远 的 压缩 性 越 强 。 
将 维 数据 的 各 个 维 规范 化 的 数值 刻 在 对 应 的 坐标 轴 上 ,依次 连接 起 来 得 到 一 个 边 形 , 即 
得 到 用 平面 表示 的 » 维 数据 的 需 达 图 。 图 14.3 即 为 基 区 域 土壤 重金 属 含量 的 雷达 图 。 


























图 14.3 重金 属 含量 雷达 图 
当 要 分 析 的 多 维 数据 的 个 数 较 少时 , 可 以 在 同一 个 雷达 图 中 将 它们 表示 出 来 ; 当 维 数 较 大 时 ， 
为 使 图 形 清晰 , 每 张 图 形 可 以 只 画 少数 几 个 样本 数据 ,甚至 每 张 图 形 只 画 一 个 样本 值 ; 或 者 根据 





数据 的 相关 性 将 它们 分 组 , 同一 组 的 用 同一 个 雷达 图 表示 , 其 中 不 同 的 多 维 数据 可 用 不 同 的 颜色 
的 多 边 形 来 区 别 。 同 时 , 为 了 获得 更 好 的 效果 , 在 雷达 图 中 适当 分 配 变量 的 坐标 轴 ， 并 选取 合适 
的 尺度 是 十 分 重要 的 。 例 如 ， 把 要 进行 对 比 的 指标 分 别 放 在 其 坐标 轴 左 和 右 或 正 上 方 和 正 下 方 ， 
以 便 根 据 图 形 偏 大 、 偏 右 或 偏 上 、 偏 下 进行 对 比 和 分 析 。 
如 果 各 参数 的 权重 不 一 样 , 则 可 以 根据 变量 权重 的 大 小 分 配角 度 。 权 重 系数 或 者 由 其 他 方法 
确定 ， 或 根据 下 式 求 得 
立 | 


式 中 : x 为 第 i 个 变量 ，ximax 为 它 的 最 大 值 。 
雷达 图 表示 方法 的 主要 特点 是 直观 , 它 能 将 多 维 数据 映射 到 二 维 图 形 中 , 可 以 形象 地 得 到 样 
本 数据 的 状况 ， 并 可 以 对 数据 得 出 初步 的 判断 。 


14.3.3 ” 树 形 图 
雷达 图 中 , 变量 的 次 序 是 任意 的 ， 有 时 候 变量 的 安排 使 图 形 显得 茫然 , 不 利于 从 整体 上 比较 
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和 评估 数据 变化 的 规律 性 。 树 形 图 可 以 克服 这 个 缺陷 。 

树 形 图 是 用 一 棵 树 来 表达 多 个 变量 , 树 上 每 一 个 未 树枝 对 应 一 个 变量 , 这 棵 树 的 分 义 的 位 置 
与 角度 , 即 变 量 的 次 序 是 根据 层次 聚 类 的 原则 确定 的 ,主干 树 取决 于 分 枝 聚 类 时 的 主导 变量 ,而 
分 枝 按 相 关 程度 依次 从 高 到 低 排 列 。 未 枝 的 长 度 表 示 变 量 的 观察 值 , 分 枝 的 长 度 是 其 上 未 枝 长 度 
的 平均 值 ， 分 叉 的 角度 等 价 于 两 变量 间 相 关系 数 xy 的 夹 角 余 纺 。 令 手表 示 变 量 和 变量 之 间 
的 夹 角 ， 则 





























0, =arccos 广 


即 相关 性 强 则 夹 角 小 , 相关 性 弱 则 夹 角 大 。 如 此 依 相 关 程度 层 层 聚 类 , 直至 最 后 的 树枝 而 形成 一 
棵 完整 的 树 。 图 14.4 即 为 树 形 图， 图 中 的 大 枝 是 由 分 量 x 和 xs 决 定 : 





+ H+ 总 
2 2 、 2 


0, =arccosri,,0, = arccosnss,0, = arccosnis 


mh 





图 14.4 树 形 图 
画 树 形 图 前 , 首先 对 数据 进行 层次 聚 类 以 得 到 聚 类 树 , 由 聚 类 树 画 出 多 元 树 形 图 是 很 容易 的 。 


14.3.4 三 角 多 项 式 图 

三 角 多 项 式 图 又 称 调和 曲线 图 , 它 是 以 三 角 多 项 式 作 图 来 实现 的 。 通 过 三 角 多 项 式 把 多 维 空 
间 中 的 一 个 样品 用 二 维 平面 中 的 一 条 曲线 来 表示 ， 并 希望 这 条 曲线 能 够 保留 原 数据 的 全 部 信息 。 
它 既 可 以 应 用 于 数据 的 分 类 和 聚 类 ， 也 可 以 用 来 发 现 异常 点 。 

绘制 三 角 多 项 式 曲线 的 具体 步 又 如 下 。 



































设 有 p 维 数 据 
xm 
则 其 对 应 的 平面 曲线 为 
£D =- 疙 + Sint 二 33 COst+x4 sin2t+xs COs21+---,—A ES1EA 
当 + 在 区 间 [-z,z] 上 变化 ， 其 轨迹 是 一 条 曲线 ， 若 多 个 数据 按照 同样 办 法 作 图 ， 就 会 对 应 多 

















条 








线 在 平面 上 ， 这 就 构成 了 调和 曲线 图 ， 如 图 14.5 所 示 。 
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FD) 
Dp 











图 14.5 三 角 多 项 式 图 


14.3.5” 散 点 图 


散 点 图 是 将 多 维 数据 以 平面 或 空间 中 的 点 来 表示 , 最 常用 的 是 二 维 数据 在 笛 卡 儿 坐标 系 内 表 
示 的 情况 , 称 为 直角 散 点 图 或 XY 散 点 图 。 有 时 为 了 更 好 地 描述 多 维 数据 的 变化 趋势 ， 用 直线 或 
平滑 曲线 将 各 数据 点 连接 起 来 ， 而 成 为 折线 图 和 平滑 线 散 点 图 。XY 散 点 图 能 描述 的 是 包含 两 个 
变量 的 二 维 数据 ， 在 使 用 这 种 方法 描述 高 于 二 维 的 多 维 数据 时 ， 常 用 散 点 图 矩阵 来 表示 。 

另 一 类 散 点 图 称 为 三 角 散 点 统计 图 或 XYZ 散 点 统计 图 ， 它 用 等 边 三 角形 的 三 条 高 为 坐标 构 
成 的 “三 角 坐 标 系 ” 内 描述 3 个 变量 ,每 一 散 点 代表 3 个 对 应 的 变量 值 。 该 方法 常用 来 描述 一 类 
称 为 概率 单纯 形 的 数据 ， 这 类 数据 所 包含 的 若干 个 变量 指标 之 和 为 一 个 常数 。 


1. 直角 散 点 图 


直角 散 点 图 实际 上 就 是 多 维 数据 在 多 维 空间 中 的 坐标 点 表示 , 各 维 坐标 对 应 多 维 数据 中 的 各 
变量 值 。 实 际 上 应 用 最 多 的 是 平面 直角 散 点 图 ， 即 XY 散 点 图 。 

二 维 数据 的 平面 散 点 图 表示 方法 非常 简单 , 实际 上 就 是 将 二 维 数据 (xy ) 在 笛 卡 儿 坐标 中 描 
点 表示 。 

2. 散 点 图 矩阵 

平面 直角 散 点 图 所 能 描述 的 是 包含 两 个 变量 的 二 维 数据 , 对 于 高 于 二 维 的 多 维 数据 , 常用 散 
点 图 矩阵 来 表示 。 散 点 图 矩阵 可 以 看 作 一 个 大 的 图 形 方 阵 , 其 每 一 个 非 主 对 角 元 素 的 位 置 是 对 应 
行 的 变量 与 对 应 列 的 变量 的 散 点 图 , 而 主 对 角 元 素 的 位 置 上 是 各 变量 名 , 这 样 借助 于 散 点 图 矩阵 
能 清楚 地 看 到 所 研究 的 多 个 变量 两 两 间 的 关系 。 

散 点 图 矩阵 的 各 元 素 位 置 散 点 作 图 方法 和 两 变量 散 点 图 完全 相同 。 






































315 


四 实战 大 数据 一 一 MATLAB 数据 挖掘 详解 与 实践 


316 








3. 三 角形 散 点 图 
三 角形 散 点 图 表示 多 维 数据 仍 以 平面 或 空间 内 的 一 点 来 表示 , 应 用 较 多 的 是 三 维 概率 单纯 形 
的 数据 在 平面 上 的 表示 ， 即 XYZ 散 点 统计 图 。 








三 角形 散 点 图 中 的 正三 角形 的 3 条 高 分 别 表示 3 个 变量 的 坐标 轴 , 高 的 底 为 0, 顶点 为 1( 即 
100% )。 很 明显 ，3 条 坐标 轴 交 于 坐标 为 ( 1/3，1/3，1/3 ) 的 一 点 ， 同 时 三 角形 内 任意 一 点 4 到 
三 边 的 距离 之 和 为 常数 1， 这 样 任何 三 维 概率 单纯 形 的 数据 均 可 用 等 边 三 角形 内 的 一 点 表示 。 


14.3.6 ”星座 图 


星座 图 就 是 将 n 个 样品 点 在 一 个 半圆 内 表示 , 一 个 样品 用 一 颗 星 表示 , 同类 的 样品 组 成 一 个 
星座 ， 不 同类 的 样品 组 成 不 同 的 星座 ， 所 以 形象 地 比喻 为 星座 图 。 

星座 图 是 一 种 非常 直观 的 方法 , 在 对 多 个 指标 的 数据 在 不 同 的 权重 下 进行 汇总 时 , 具有 既 能 体 
现 统计 数据 的 统计 结果 , 还 能 反映 数据 的 均衡 性 的 优点 ， 因 此, 使 用 极其 方便 。 根 据 样 本 点 的 位 置 
可 以 直观 地 对 各 样本 点 之 间 的 相关 性 进行 分 析 , 利用 星座 图 还 可 以 方便 地 对 样本 点 进行 分 类 , 在 星 
座 图 上 比较 靠近 的 样本 点 比较 相似 ， 可 以 分 为 一 类 ， 相 距 较 远 的 点 相应 样本 的 差异 性 较 大 。 

绘制 星座 图 的 具体 步骤 如 下 。 

(1 ) 为 消除 量 纲 的 影响 ， 将 数据 作 线 性 变换 ， 使 更 换 后 的 数据 落 在 某 一 线性 范围 内 。 常 用 
的 线性 变换 方法 为 极 差 标 准 化 ， 使 变换 后 的 数据 落 在 [0,z] 闭 区 间 内 ， 其 变换 公式 为 




































































式 中 : 及 为 数据 矩阵 每 列 的 极 差 。 
(2 ) 适当 选取 一 组 路 径 权重 {wj} ， 使 满足 
Yo, =1 
J=1 
@,0, j=1.2…,3,…,p 
重要 变量 相应 的 权重 可 以 取得 大 一 点 ， 但 一 般 情况 下 可 以 取 等 权 ， 即 


1 
=0,=-=0, = 一 


Pp 
(3 ) 画 一 个 半径 为 1 的 上 半圆 及 半圆 底 边 的 直径 ， 使 每 个 样本 对 应 半圆 内 的 一 个 点 ， 称 为 
星 ， 这 些 星 就 落 在 这 个 半圆 内 。 设 有 模式 五 ， 首 先 以 为 半圆 心 为 圆心 ，w 为 半径 ， 画 上 一 半圆， 
在 圆周 上 对 应 弧度 为 yi 的 点 为 01， 然 后 再 以 O; 为 圆心 ， 以 oz 为 半径 画 一 个 半圆 ， 在 圆周 上 对 
应 弧度 为 yz 的 点 为 0;,， 以 此 类 推 , 直至 2 为止。2p 即 为 五 与 对 应 的 星座 的 位 置 。 由 O 点 通过 
上 述 作 图 步 又 ， 到 达 星 的 路 线 称 作 该 星座 的 路 径 ， 由 以 上 可 得 出 与 任 一 模式 Xa 对 应 的 星座 位 置 
坐标 为 












































一 Pp 
D0 cos yas 0 sin ya) 
pe j=1 


第 14 章 可 视 化 技术 @ 


通过 星 的 位 置 和 路 径 就 可 以 全 面 刻画 该 样本 的 特征 ， 图 14.6 即 为 星座 图 。 根 据 星座 图 上 点 
的 位 置 及 路 径 判 断 各 样本 间 的 接近 程度 , 进而 可 以 对 样本 点 进行 归 类 分 析 。 在 实际 工作 中 ， 人们 
往往 去 掉 样本 点 的 路 径 部 分 而 仅 保留 其 在 星座 上 的 位 置 , 并 根据 各 点 位 置 的 接近 程度 分 析 样本 点 
间 的 接近 程度 。 





图 14.6 多 维 数据 的 星座 图 
当 样本 数 较 大 时 ， 数 据 在 一 个 半圆 内 显得 比较 “拥挤 "， 且 易 造 成 “殊途同归 ”的 现象 ,给 
分 类 带 来 了 一 定 的 困难 。 此 时 ， 可 以 通过 适当 “ 拉 开 ”样本 距离 ， 即 将 数据 扩充 到 半径 为 1 的 整 
个 圆 内 (2x 区间 )， 就 可 充分 利用 原始 数据 的 信息 ， 各 样本 间 的 区 别 与 联系 将 更 加 清楚 ， 为 合理 
分 类 提供 了 方便 。 
与 星座 图 相似 的 是 星 型 坐标 表示 法 ， 如 图 14.7 所 示 。 它 的 基本 思想 是 在 一 个 二 维 平面 上 排 
列 一 系列 的 坐标 轴 ， 这 些 坐 标 轴 并 不 是 正 交 的 ， 每 一 个 坐标 轴 都 对 应 一 个 数据 维 ，n 维 数据 属性 
以 坐标 轴 的 形式 映射 到 二 维 平面 上 ，n 维 数据 空间 中 的 点 被 表示 成 二 维 平面 上 的 一 个 点 。 在 二 维 
平面 的 圆 上 排列 了 许多 坐标 轴 ， 轴 间 角 度 相等 ,原点 是 圆 的 中 心 。 轴 的 长 度 与 数据 值 成 比例 ,最 
小 值 映射 到 圆 点 , 最 大 值 映射 到 轴 的 另 一 端 , 此 轴 段 即 为 该 轴 的 单位 向 量 。 通过 调整 轴 长 和 角度 ， 
可 以 调整 数据 集 在 二 维 平面 上 的 分 布 ， 从 而 实现 分 类 和 聚 类 。 








2 维 可 视 化 


14.7 星 型 坐标 表示 法 
通过 改变 坐标 轴 长 度 , 可 以 提高 或 降低 某 一 维 或 多 维 数 据 对 可 视 化 结果 的 影响 ; 改变 坐标 轴 





的 方向 ,可 以 提高 或 降低 相应 维 数据 与 其 他 维 数据 的 关联 。 旋 转 同 样 解决 图 像 重 得 问题 , 既 可 以 
将 重生 的 点 分 离 ， 也 可 以 将 重 秋 在 一 个 区 域 的 不 同类 簇 分 开 。 

另外 , 还 可 以 选择 图 中 的 单个 点 或 革 个 范围 来 标记 数据 点 ,数据 点 将 被 标记 成 所 选择 的 颜色 。 
通过 标记 数据 ， 可 以 方便 地 观察 数据 子 集 的 变化 情况 。 
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14.3.7 ”基于 像素 的 高 维 数据 的 可 视 化 


面向 像素 技术 的 高 维 数据 可 视 化 技术 的 基本 思想 是 将 n 维 对 象 映射 成 一 个 圆 , 并 将 圆 划分 成 
n 段 代表 不 同 的 属性 。 每 个 属性 值 映射 成 一 个 颜色 像素 ， 并 用 分 隔 子 窗口 代表 属于 不 同 维度 的 属 
性 值 ， 像 素 的 颜色 由 HIS 颜色 范围 确定 ，HIS 颜色 范围 是 对 HSV 颜色 模式 进行 轻微 修改 而 成 。 
在 每 个 子 窗口 中 ， 相 同 记录 的 属性 值 被 标记 在 相同 的 相对 位 置 上 。 

图 14.8 显示 了 通过 对 白 、 灰 和 黑 三 种 颜色 的 离散 化 , 将 30 000 条 包含 16 个 描述 工业 部 件 周 
线 和 可 达 性 属性 维 的 记录 可 视 化 , 可 达 性 属性 维 的 描述 清楚 给 出 了 总 体 的 聚 类 结构 以 及 许多 由 小 
到 大 的 聚 类 展示 。 只 有 描述 序列 末尾 段 的 外 边界 展示 了 一 个 大 的 由 代表 噪声 的 白色 区 域 用 成 的 大 
的 聚 类 。 在 大 的 聚 类 中 比较 属性 级 数 ， 很 显然 ， 属 性 维 2~9 表现 了 一 个 恒定 的 值 ,而 其 他 属性 维 
在 倒数 第 三 部 分 数值 上 出 现 不 同 , 此 外 , 与 其 他 属性 维 相 比 , 属性 维 9 的 最 小 值 位 于 大 的 聚 类 中 ， 
而 其 最 大 值 位 于 其 他 聚 类 中 , 集中 观察 像 可 达 属 性 维 中 第 三 条 条 纹 这 样 的 小 聚 类 , 可 以 看 出 属性 
维 5、6、7 在 许多 突出 的 形式 上 不 同 于 其 邻接 属性 维 。 当 选择 小 的 聚 类 ,并 通过 可 达 区 详细 进行 
可 视 化 时 ， 许 多 另外 的 数据 特性 能 够 展示 出 来 。 





图 14.8 16 维 的 30000 个 对 象 的 聚 类 结构 

需要 注意 的 是 , 此 技术 要 求 数据 至 少 是 三 维 , 另外 ， 用户 可 以 通过 改变 维 的 数据 在 圆 内 位 置 
以 进一步 比较 数据 特性 ,而 且 通 过 色彩 控制 , 将 数据 点 的 值 映射 到 像素 点 的 色彩 值 , 一 种 颜色 代 
表 一 类 数据 ， 当 一 维 数据 属性 出 现在 多 个 分 支点 情况 下 就 会 有 多 种 颜色 出 现在 一 个 段 内 , 可 以 清 
楚 地 看 出 分 支点 的 位 置 。 


14.3.8 ”基于 非 线 性 变换 的 图 表示 优化 
高 维 数据 的 图 形 表 示 一 般 都 较为 复杂 ,这 不 利于 后 续 的 处 理 。 根 据 后 续 处 理 ( 如 分 类 ) 方法 的 
要 求 ， 基 于 非 线 性 函数 的 优化 方法 ， 可 以 使 图 表示 更 符合 实际 处 理 要 求 以 及 可 视 化 与 交互 式 原则 。 
在 对 数据 进行 非 线 性 描述 时 ， 非 线性 函数 fw) 选择 的 基本 标准 如 下 。 
C1 TOV Elna ly Sxelzs sl 
(2) 石 e[xasxm] 目 xz e[xayzux] 范 围 的 , 当 为 之 为 时 ， 有 f (wn) 宇 f(w) 
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第 一 个 条 件 即 为 值 域 要 求 ; 第 二 个 要 求 即 为 单调 非 减 函数 要 求 。 满 足 这 两 个 要 求 的 函数 都 可 
以 作为 转换 函数 而 用 于 图 表示 的 优化 ， 例 如 指数 函数 、 多 项 式 函 数 和 分 段 函 数 等 。 








1. 指数 函数 
根据 两 个 条 件 的 要 求 ， 约 束 后 的 指数 函数 为 
CoD= 一 一 a>1l 
如 果 对 其 归 一 化 ， 则 有 
Jo = 了 >1 


2. 多 项 式 函 数 





多 项 式 函数 f(x) = Tax 为 平滑 的 连续 函数 , 其 二 阶 导数 符号 不 唯一 , 经 过 限定 后 可 以 用 于 
多 元 图 的 优化 。 具 体 做 法 是 取 多 项 式 曲线 中 单调 部 分 , 并 对 其 进行 缩放 与 平移 ,其 中 最 为 简单 的 
多 项 式 为 
f(x)=x",a>0 
当 a<1 时 ， 数 据 向 大 数据 端 汇聚 ; 当 a>1 时 ， 数 据 向 小 数据 端 汇聚 ， 当 a=1 时 ， 数 据 分 布 不 变 。 


3. 分 段 函 数 


对 于 某 些 多 元 图 ， 可 根据 其 分 布 的 特性 采用 分 段 函 数 处 理 。 
(zzElx 二] 


PR Arsbsa] 


L(x 本 
式 中 各 子 函 数 均 应 满足 x 的 约束 条 件 。 
在 分 段 函 数 中 ,“ 放 大 镜 ” 函 数 具有 良好 的 局 部 放大 作用 ， 其 表达 式 为 





J [et hx eb] eon 
0,x ¢[x,x,] 
式 中 ; qa = 了 ee pT 
7 bz 


14.3.9 ”高 维 数据 降 维 
由 于 高 维 数据 受到 三 维 物理 空间 的 限制 , 其 图 形 表示 和 对 数据 结构 的 直观 理解 比较 困难 。 虽 
然 现 在 有 上 述 描述 的 等 多 种 方法 可 以 将 多 维 数据 用 平面 图 形 来 表示 , 但 如 果 对 高 维 数据 进行 必要 
的 降 维 ， 则 对 后 续 的 数据 处 理 有 极 大 的 帮助 。 
降 维 就 是 在 保持 原始 数据 主要 特性 基础 上 将 高 维 空间 映射 到 低 维 空 间 。 作 为 分 析 和 研究 高 维 
数据 的 重要 手段 , 降 维 问 题 具 有 重要 的 理论 与 应 用 价值 ， 正 引起 人 们 越 来 越 多 的 关注 。 下 面 即 为 
319 
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几 种 常用 的 高 维 数据 降 维 方法 。 
1. 主 成 分 分 析 


主 成 分 分 析 是 在 保证 数据 信息 损失 最 小 的 前 提 下 , 经 线性 变换 和 舍弃 一 小 部 分 信息 ,以 少数 
新 的 综合 指标 取代 原始 的 多 维 指标 ( 变量 ) 来 反映 多 维 变量 所 提供 的 信息 。 得 到 的 新 的 综合 变量 
称 作 主 成 分 。 

该 方法 适用 于 变量 之 间 存 在 较 强 相关 性 的 数据 , 一 般 认 为 当 原始 数据 大 部 分 变量 的 相关 系数 
都 小 于 0.3 时 ， 运 用 主 成 分 分 析 不 会 取得 很 好 的 效果 。 


2. 因子 分 析 


因子 分 析 通过 对 数据 矩阵 进行 特征 分 析 、 旋 转变 换 等 操作 ,可 以 获得 数据 的 相关 信息 。 在 因 
子 分 析 中 是 由 几 个 潜在 的 但 不 能 观察 的 随机 变量 ( 即 因子 ) 去 描述 许多 变量 间 的 协 方差 关系 , 根 
据 相 关 性 的 大 小 把 变量 分 组 , 使 得 同 组 内 的 变量 直接 的 相关 性 较 高 , 而 不 同 组 的 变量 相关 性 较 低 。 

可 以 把 因子 分 析 当 成 主 成 分 分 析 的 一 个 扩充 。 两 者 都 可 以 看 成 在 力图 逼近 协 方差 矩阵 。 主 成 
分 分 析 中 的 主 成 分 个 数 与 变量 个 数 p 相同 , 它 将 一 组 具有 相关 关系 的 变量 变换 为 一 组 互 不 相关 的 
变量 ,实际 应 用 时 ,一 般 只 选择 前 m 个 (m<p ) 主 成 分 。 而 因子 分 析 的 目的 是 要 用 尽 可 能 少 的 公 
因子 ,以便 构造 一 个 结构 简单 的 因子 模式 ,将 原始 变量 表示 为 公 因子 和 特殊 因子 的 线性 组 合 , 用 
假设 的 公 因 子 来 解释 相关 和 矩阵 的 内 部 依赖 关系 。 很 明显 基于 因子 分 析 模式 的 降 维 方法 更 为 精细 。 


3. 基于 特征 选取 思想 的 降 维 方法 


由 于 数据 的 处 理 实际 上 就 是 对 其 特征 的 分 析 , 而 各 种 多 维 数据 的 特征 可 以 分 为 物理 的 、 数 学 
的 和 结构 的 特征 , 因此 可 以 通过 特征 选择 和 特征 实现 降 维 。 特征 选择 是 从 一 组 特征 中 舍弃 一 些 原 
始 特征 而 挑选 出 一 些 最 有 效 的 特征 , 以 达到 降低 特征 空间 维 数 的 目的 ; 特征 是 通过 映射 (或 变换 ) 
的 方法 将 高 维 数据 在 低 维 空间 来 表示 样本 的 过 程 。 因此 特征 提取 和 特征 选择 的 基本 任务 是 从 众多 
特征 中 找 出 那些 最 有 代表 性 、 最 有 效 的 特征 ， 并 舍弃 一 些 匈 余 变 量 ， 进 行 有 效 分 类 。 图 14.9 即 
是 对 于 小 高 维 数据 的 基于 特征 选取 思想 降 维 方法 的 示意 图 。 


特征 选取 











重要 特征 





请 半 头 现 
富 计 证 闽 六 


非 重 要 特征 融合 


图 14. 9 特征 选取 降 维 方法 示意 图 
而 对 于 中 、 高 维 数据 ， 因 为 有 很 多 主要 的 特征 , 也 有 很 多 无 关 的 特征 ,为 此 需要 采取 多 级 信 
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息 选取 的 方法 进行 降 维 。 首 先 对 高 维 数据 进行 分 段 处理 ， 然 后 对 分 好 的 各 段 进 行 特 征 选取 , 得 到 
代表 此 段 数 据 的 多 个 特征 , 其 次 将 所 有 段 的 特征 组 合作 为 下 一 级 处 理 的 输入 数据 , 直至 最 后 得 到 
能 表达 高 维 数据 的 总 特征 或 模式 表达 结果 。 图 14.10 即 为 该 方法 的 示意 图 。 


重要 


初级 特征 选取 
第 特征 


次 级 重要 次 级 特征 


| 


高 上 
数 
据 





第 重要 特征 。 初级 特征 选取 


次 级 非 重要 
特征 融合 





变 非 重 要 特征 
量 


人 入 
加 


图 14.10 中 、 高 维 数据 降 维 处 理 示 意图 


14.4 ”图形 的 特征 分 析 


多 元 图 表示 是 数据 探索 性 分 析 的 重要 手段 , 可 以 获取 对 数据 结构 特征 的 认识 指导 分 类 算法 选 
择 与 参数 确定 等 。 


14.4.1 平行 坐标 下 的 聚 簇 分 析 


用 平行 坐标 可 把 多 维 空间 的 数据 集 映 射 到 二 维 平面 , 为 数据 特征 的 分 析 提供 了 方便 。 在 平行 
坐标 系 下 , 每 一 坐标 轴 实 际 反映 的 是 数据 在 该 坐标 轴 上 的 一 维 投影 , 因此 在 此 坐标 轴 上 数据 的 分 
离 及 聚 簇 明显 ， 有 助 于 发 现 数据 的 聚 类 特征 , 在 多 维 空 间 数 据 的 聚 徐 情 况 则 可 同 平行 坐标 中 各 折 
线 的 分 离 及 聚 簇 情况 表达 出 来 。 图 14.11 表现 的 即 为 四 维 空间 中 3 个 独立 聚 答 。 由 于 平行 坐标 中 
可 以 同时 看 到 各 维 之 间 的 联系 ， 因 此 可 以 很 清楚 地 通过 各 维 观察 数据 的 聚 得 情况 。 

当 聚 类 算法 产生 的 结果 包含 大 量 数据 对 象 的 多 个 聚 簇 时 ， 由 于 大 量 的 交大 使 折线 密度 增加 ， 
生成 的 图 形 存在 大 量 的 重 番 ， 层 次 不 清 ， 使 图 形 难以 辨识 。 此 时 可 采用 M-BIRCH 算法 的 分 层 方 
式 对 数据 肾 类 结果 进行 可 视 化 ,进而 识别 出 各 个 聚 簇 之 间 的 关系 , 最终 达到 准确 的 从 类 。 该 方法 
将 聚 类 结果 可 视 化 设 定 在 不 同 的 层次 上 , 在 用 户 的 参与 下 ,过 细 的 划分 的 情况 下 对 其 父 节 点 (上 
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级 节点 ) 可 视 化 ， 称 为 层次 上 卷 ， 而 阔 值 过 大 的 节点 显示 其 节点 (下 级 节点 )， 即 层次 上 钼 ,使 
最 终 可 视 化 结果 是 不 同 层次 的 、 不 同 粒度 的 复 的 显示 ， 从 而 解决 底层 无 法 完全 显示 的 问题 。 








图 14.11 平行 坐标 的 聚 散 表示 
图 14.12 中 的 a 表示 M-BIRCH 的 逻辑 结构 框架 ，2 为 显示 层 ( 可 视 化 显示 的 基本 层 )， 因 为 
M-BIRCH 采用 的 数据 存储 结构 为 高 度 平衡 树 ， 所 以 层次 可 以 用 直线 表示 ，c 为 细 化 层 ， 将 处 于 
细 化 范围 内 的 节点 由 细 化 层 内 的 子 节点 代替 进行 可 视 化 处 理 ，4 表示 设 定 的 细 化 区 域 ， 对 细 化 区 
域 包含 的 显示 层 进行 细 化 ，( emiaemax ) 表示 细 化 范围 ， 对 显示 层 中 处 于 该 范围 的 节点 进行 下 钻 ， 
根 节点 与 ( emin,emax ) 形成 细 化 区 。 通 过 细 化 范围 的 左右 调节 可 以 修改 细 化 范围 ， 上 下 调节 挖掘 
数据 的 上 卷 和 下 钻 。 在 分 层 显示 中 可 以 采用 一 个 细 化 范围 ， 也 可 以 包含 多 个 细 化 范围 。 








a 


图 14.12 分 层 显 示 的 概念 图 
14.4.2 ”雷达 图 的 图 形 特征 方法 


雷达 图 是 二 维 平面 内 的 一 个 封装 的 不 规则 的 多 边 形 ,明显 的 一 个 结构 特征 即 是 由 多 个 三 角形 组 
成 的 多 边 形 ， 每 个 三 角形 都 是 由 相 邻 变 量 组 成 。 它 的 一 个 明显 的 视觉 特征 是 多 边 形 的 面积 和 重心 。 


1. 面积 图 形 特征 


对 面积 的 求解 ， 可 以 采用 三 角形 面积 法 和 扇形 面积 法 ， 其 中 基于 三 角形 面积 的 图 如 图 14.13 
表示 。 相 关 符 号 : 面积 S$、 射线 z、 弧 度 w; 和 维 数 me 






































图 14.13 基于 三 角形 面积 的 图 表示 原理 
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单调 函数 的 面积 求解 方法 
RS ys 
三 角形 面积 
5, =—nin sin 6 
扇形 面积 
3 一 @ 
2. 重心 图 形 特征 





重心 是 雷达 图 多 边 形 的 另 一 个 信息 ， 如 图 14.14 所 示 。 














图 14.14 雷达 图 中 一 个 三 角形 重心 图 形 特征 的 示意 图 
重心 的 计算 公式 如 下 








abs, = Csiney +(( cos@)— 13+ 22 


lsine, 
angle, = arcsin 3 二 





+27zG-]D)1d 








其 中 : abs;、angle; 分 别 为 第 i; 维 变 量 和 第 i+1 维 变量 组 成 的 三 角形 的 重心 的 幅 值 和 真实 的 角度 。 
or2mld 为 第 ;i 维 变量 和 第 i+1 维 变量 间 的 夹 角 弧度 ， 可 以 认为 圆 角 被 样本 维 数 4d 平分。 

重心 计算 出 来 后 , 就 可 以 将 重心 的 幅 值 作为 雷达 图 重心 图 形 特征 。 一 个 4 维特 征 的 样本 就 会 
产生 一 个 对 应 的 4 维 重 心 图 形 特征 的 样本 。 
14.4.3 ”图 形 特 征 提取 中 的 特征 排序 问题 

实验 表明 ,多 元 数据 的 特征 排序 不 同 会 导致 不 同 的 雷达 图 , 进而 会 影响 到 分 类 性 能 。 所 以 在 
实践 应 用 中 要 注意 特征 排序 的 问题 ， 要 寻找 最 优 分 类 所 对 应 的 特征 排序 。 

解决 特征 排序 的 方法 有 两 种 : 一 种 是 采用 传统 的 特征 选择 方法 ,包括 穷 举 法 、 单 独 最 优 特征 

合法 、 顺 序 前 进 法 、 顺 序 后 退 法 等 ; 第 二 种 是 采用 基于 全 局 优化 的 随机 搜索 算法 如 遗传 算法 等 ; 

第 三 种 是 利用 准则 函数 寻找 最 优 特征 顺序 。 
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穷 举 法 是 要 把 所 有 可 能 的 特征 组 合 都 计算 一 遍 ， 然 后 再 从 中 找 出 最 优 的 特征 排序 。 很 明显 ， 
当 维 数 较 大 时 , 这 个 算法 是 无 法 实现 的 。 这 样 使 得 寻找 一 种 可 行 的 算法 变 得 非常 重要 。 但 要 注意 ， 
所 有 算法 原则 上 仍 是 穷 举 法 ， 只 不 过 采用 某 种 搜索 技术 使 计算 量 可 能 有 所 减少 。 

第 一 各 方法 在 理论 上 就 不 能 保证 是 最 优 的 特征 排序 ;第 二 种 方法 如 遗传 算法 在 实现 上 又 十 分 耗 
时 ， 第 三 种 基于 准则 函数 的 方法 既 能 找到 较 优 的 特征 排序 ， 也 能 减少 时 间 开 销 ， 其 计算 过 程 如 下 : 

首先 计算 每 两 维 间 的 Spearman 相关 系数 ， 然 后 找到 相关 系数 最 小 的 两 维 h 和 k， 接 着 对 这 
两 维 中 的 每 一 个 分 别 计算 与 剩余 其 他 维 间 的 Spearman 相关 系数 ， 然 后 找到 相关 系数 最 小 的 两 维 
大 和 +， 那么 ， 特 征 排列 的 头 三 位 是 大 和 t+， 接着 计算 : 与 剩余 其 他 维 的 Spearman 相关 系数 ， 
然后 找到 相关 系数 最 小 的 对 应 的 维 , 这 一 维 就 是 特征 排列 的 第 4 位 , 以 此 类 推 , 直到 考虑 所 有 维 。 
最 终 得 到 的 特征 排序 是 相 邻 两 维 的 Spearman 相关 系数 从 头 到 尾 依次 减少 。 

Spearman 相关 系数 的 计算 公式 如 下 





(5 = 


=1 
AP =1— 一 


式 中 : Y 为 样本 的 总 个 数 ; i、itl 分 别 为 第 i 维和 i+l 维 ; j 为 样本 索引 值 ; 5 为 第 j 样 本 第 i 维 。 


14.5 ”基于 多 元 图 的 图 形 分 类 方法 
根据 Penrose 创立 的 形状 差异 系数 ， 可 以 将 下 式 定义 为 基于 面积 特征 的 图 形 相 异 度 系数 


d 
-0 = pt -Es 


式 中 : 六 为 样本 点 站 和 7 的 欧 氏 距离 ，sw 为 样本 点 i 的 雷达 图 上 的 第 维 转 成 的 扇形 的 面积 值 ， 
或 者 是 是 第 n 维和 下 一 维 围 成 的 三 角形 的 面积 值 ， 即 第 ” 维 面积 特征 。 
类 似 地 ， 可 以 定义 基于 重心 特征 的 图 形 相 异 度 系数 


| d 
=) 9=0 8 -en) 
y 二 ly b= em Ley 


式 中 :gi 为 样本 点 i 的 雷达 图 上 的 第 维 围 成 的 三 角形 的 重心 坐标 幅 值 ， 即 第 ” 维 重心 特征 ， 
其 余 符 号 意义 与 前 相同 。 


14.5.1 单 原型 图 形 分 类 器 


定义 了 图 形 相 异 度 系数 后 , 便 可 以 按照 模板 匹配 思想 用 基于 图 形 相 异 度 的 分 类 器 对 图 形 进行 
分 类 。 

单 原 型 分 类 器 , 即 最 近 均 值 分 类 器 , 是 一 种 典型 的 模板 匹配 法 ， 也 是 一 种 简单 的 基于 相似 度 
的 分 类 器 。 其 主要 思想 是 用 一 个 均值 代表 一 个 类 别 , 分 类 时 只 需要 比较 新 样本 与 各 类 均值 的 距离 
就 可 以 确定 属于 哪 一 类 。 具 体 而 言 ， 在 模型 训练 时 ， 把 训练 样本 按照 类 别 分 组 ， 然 后 计算 各 类 的 
算术 平均 值 ， 用 均值 作为 该 类 别 的 代表 。 在 分 类 时 ， 计 算 测 试 样本 与 各 均值 的 欧 氏 距离 ， 选 取 欧 
氏 距 离 的 均值 所 代表 的 类 别 作为 测试 样本 的 类 别 即 可 。 

在 图 形 分 类 器 中 , 各 类 的 代表 性 的 多 元 图 是 均值 的 多 元 图 , 判别 函数 是 图 形 相 异 度 。 各 类 的 代 
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表 性 的 多 元 图 可 以 用 几何 均值 、 调 和 均值 、 中 值 的 多 元 图 等 代替 均值 的 多 元 图 , 判别 函数 也 可 以 月 
方差 加 权 距 离 、 街 区 距离 、 马 氏 距 离 、 夹 角 余 弦 和 相关 系数 等 代 蔡 图 形 相 异 度 中 的 欧 氏 距离 。 


14.5.2 ”基于 平行 坐标 的 平行 得 可 视 化 分 类 方法 


平行 第 可 视 化 分 类 器 主要 针对 多 类 问题 。 其 基本 思想 是 首先 用 平行 坐标 表示 原始 训练 数据 ， 
然后 利用 线性 判别 算法 分 别 寻 找 各 类 最 优 投影 方向 ( 最 优 子 空间 ) 上 的 信息 ,最 后 采用 决策 树 算 
法 对 各 类 别 数据 分 别 进行 分 割 ， 最 终 形成 分 类 得 图 。 根 据 分 类 筛 图 就 可 以 对 未 知 样本 进行 分 类 。 
具体 算法 如 下 : 
(1 ) 数据 预 处 理 : 包括 归 一 化 、 缺 失 数 据 填补 、 离 群 点 处 理 等 。 
(2 ) 将 预 处 理 后 的 数据 表示 为 平行 坐标 。 
(3 ) 寻找 第 类 的 最 优 投 影 方向 ,所 1,2,…,K。 将 第 类 作为 一 类 4， 将 其 余 K-1 类 作为 另 
一 类 B, 对 4 和 B 两 类 用 线性 判别 算法 求 取 最 优 的 vw 个 相互 正 交 的 投影 方法 ，vi 宇 1， 这 vw 个 投 
影 张 成 第 类 的 最 优 子 空间 。 



































类 内 离散 度 和 矩阵 为 
3 = 了 (rz-m)(z 一 mm)7 ii= 才 下 

总 的 离散 度 矩 阵 为 

NA 
类 间 离 散 度 矩 阵 

Sa = (ma —ma)ma 一 np) 

分 离 度 指标 为 

了 ES) 
最 优 解 为 


Ww = 8% (m4 —ms) 


(4) 用 平行 坐标 表示 这 个 最 优 子 空间 ， 其 坐标 轴 数 为 Su o 


kl 
(5 ) 用 决策 树 算法 在 最 优 子 空间 Q 中 对 第 人类 进行 划分 ， 确 定 分 类 规则 。 
(6 ) 绘制 决策 树 算法 过 滤 后 的 平行 筛 图。 
(7) 根据 平行 得 图 对 未 知 样本 进行 分 类 。 
14.5.3 ”基于 平行 坐标 的 贝 叶 斯 可 视 化 分 类 方法 
首先 将 数据 集 随机 分 为 测试 集 和 训练 集 , 然后 将 训练 集 用 平行 坐标 表示 。 用 参数 化 或 非 参 数 
化 方法 对 训练 集 数 据 各 变量 分 别 进行 概率 密度 估计 , 据 此 进行 非 线 性 变换 得 到 其 点 得 分 , 最 后 对 
各 变量 的 点 得 到 进行 加 权 融 合 ， 最 终 确定 分 类 规则 。 
具体 算法 如 下 。 
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(1 ) 数据 预 处 理 和 降 维 。 可 采用 各 种 通用 降 维 方法 。 

(2 ) 数据 空间 到 图 形 空间 映射 。 将 m 维 数据 空间 的 样本 映射 到 二 维 平面 的 m 个 点 , 并 用 直 
线段 或 者 曲线 段 连接 属于 同一 个 样本 的 m 个 点 ,就 可 以 得 到 该 数据 样本 点 的 坐标 。 

(3 ) 分 类 优化 。 对 平行 坐标 图 进行 处 理 和 变换 ， 使 其 更 适合 可 视 化 分 类 需要 。 首 先 用 参数 


化 或 者 非 参 数 化 方法 估计 每 维 的 类 条 件 概 率 密度 f(x | @), f(x|@,) ， 然 后 进行 变换 














bxis | 0) 
bs | ©,) 
(4 ) 绘制 点 得 分 平行 坐标 。 用 n 条 平行 轴 表 示 n 个 属性 的 点 得 分 ， 每 个 样本 用 穿 过 n 条 平 

行 轴 的 一 条 折线 表示 ,折线 与 平行 轴 的 交点 的 纵 坐 标 对 应 属性 的 点 得 分 值 ， 用 不 同 颜色 , 或 者 线 
条 粗细 ， 或 者 线条 形状 等 区 分 不 同 的 类 别 。 
(5 ) 分 类 规则 确定 。 对 点 得 分 平行 坐标 中 的 各 变量 的 点 得 分 值 进行 加 权 融 合 ， 最 终 确 定 决 
策 面 参 数 和 分 类 规则 。 分 类 规则 为 

F(@ |X)= 2 lgOR(a)> 4,X eo 

F(@, 1 加 一 2 lgOR(a,) < 4,X¥ ew, 


式 中 : 邯 为 待 分 样本 ; 为 权 系数 ; A 为 判别 点 的 值 。 权 系数 可 以 简单 设置 为 等 权 , 或 者 根据 专 
家 先 验 知识 进行 设置 ， 以 反映 不 同属 性 值 的 重要 程度 ; OR ( ai ) 为 第 i 个 属性 变量 a; 对 分 类 的 贡 
献 ， 即 点 得 分 


wlgOR(a)=lg 




















Pl@ |a,) 

Pla, |@) Po |a,) 
Polo) Plo) 
Pl(@,) 





OR(o)= 


类 条 件 概率 密度 则 可 根据 贝 叶 斯 公式 计算 。 

由 于 概率 密度 估计 是 在 单 变量 上 进行 , 所 以 计算 复杂 度 较 低 ， 对 样本 数 的 需求 也 不 太 高 , 可 
以 在 人 的 监督 下 进行 (如 可 以 用 直方 图 估计 或 者 K 近邻 法 )， 具 有 很 好 的 可 视 化 特性 ， 从 而 有 利 
于 分 类 过 程 中 专家 知识 参与 以 及 对 数据 和 分 类 结果 的 理解 。 


14.6 ”基于 色 度 学 空间 的 多 元 图 表示 


传统 的 多 元 图 表示 侧重 于 数据 空间 结构 的 表示 ,而 对 于 数据 的 类 别 信息 表示 不 足 。 为 了 引入 
类 别 信息 , 需要 在 不 影响 可 视 化 的 基础 上 , 在 传统 多 元 图 表示 的 维 数 上 加 入 类 别 维 以 区 分 不 同类 
别 的 分 布 情况 。 

目前 常用 的 类 别 区 分 方法 是 将 不 同类 别 的 数据 表示 为 不 同 颜色 或 不 同 符号 , 虽然 可 以 直观 地 
观察 不 同类 别 数据 在 空间 中 的 分 布 , 但 由 于 其 定义 每 一 个 点 只 能 对 应 为 某 种 类 别 的 颜色 , 因此 对 
于 重合 点 数据 却 无 法 表示 ， 而 重 番 点 数据 恰恰 是 分 类 器 设计 的 重要 参考 点 。 

色 度 学 认为 : 几 种 不 同 波长 的 光 以 一 定 比例 的 混合 ， 可 以 得 到 一 种 全 新 的 主观 感受 的 颜色 ， 
该 颜色 的 色 度 取决 于 参与 混合 的 各 颜色 的 比例 。 因 此 , 在 色 度 散 点 图 中 ,可 以 根据 类 别 数目 选择 
适当 的 基色 进行 类 别 的 标识 。 在 非 重 合 点 , 色 度 直接 用 基色 表示 , 而 在 重合 处 , 若 为 同类 别 重合 ， 
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则 基色 与 自身 混合 ， 仍 为 原始 基色 , 不 影响 信息 表示 ; 若 为 不 同类 重合 点 ， 则 根据 该 点 上 类 别 的 
概率 分 布 对 不 同类 别 的 基色 进行 混合 , 得 到 的 混合 色 用 于 当前 点 的 着 色 。 在 着 色 时 ,因为 关心 的 
是 类 别 的 概率 而 不 是 绝对 数目 ， 所 以 需要 对 空间 中 相同 坐标 点 的 不 同类 别 数据 做 归 一 化 处 理 。 


14.7 基于 MATLAB 的 数据 可 视 化 技术 


例 3.26 监测 某 湖泊 的 水 质 , 共 设 7 个 监测 点 , 每 个 监测 点 监测 指标 为 5 项 , 监测 结果 如 表 




































































14.1 所 示 。 试 用 各 种 可 视 化 方法 表示 之 。 
表 14.1 水 质 监 测 数据 表 单位 : mgll 
点 位 DO T—N T—P 
1 4.3 3.66 0.105 
2 5.9 2.92 0.081 
3 7.0 1.71 0.072 
4 6.9 1.32 0.075 
5 7.4 1.26 0.076 
6 6.9 1.05 0.096 
7 6.7 1.02 0.072 
解 : 
>> load mydata; % 输 入 数据 
>>parallelplot (x, {'DO', 'COD', 'BOD', 'T-N', 'T-P'}); $ 画 图 , 得 图 14.15 
>> triangleplot (x); $ 三 角 多 项 式 图 (图 14.16) 
8 
4 
下 3 
6 2 
5 1 
0| 
9 及 
本 
1 
3 
2 
2 
3| 
1 4 
0 1 i 
DO BOD TN TP 只 3 间 沁 0 1 区 3 4 
平行 坐标 图 t 
图 14.15 平行 坐标 图 图 14.16 三 角 多 项 式 图 
>> ERA $ 星 座 图 (图 14.17) 
>> treplot (x); s 树 型 图 ( 图 14 .18) 
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14.17 多 维 数据 的 星座 图 图 14.18 树 形 图 
>> plotmatrix (x); gs 和 矩形 散 点 图 (图 14.19 ) 
>>y=zigzag (x, type, num); % 折 线 图 (图 14.20) 



















中 位 数 1.32 
最 小 值 1.02 
最 大 值 3.66 
标准 差 1.0327 了 
平均 值 18486 中 位 数 0.076 
0072 
最 大 值 0 
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日 ~ beanaaowahaoaahamm 


















































标准 差 0012972 
o. 平均 值 0.082429 
o 二 性 5 
1 2 3 4 5 6 7 
图 14. 19 矩形 散 点 图 图 14.20 折线 图 
>>y=mybar (x, 3); sg 人 饼 图 (图 14.21 ) 


最 家 1 SEE 
3 和 中 信人 
DE 


景 小 值 
61371% 


0 


图 14.21 饼 图 
>>y=cirqueplot (x); gs 圆 环 图 (图 14 .22) 




















pl 
机 
户 
心 
ND 
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>>y=star coordinate (x, cl1,alpha, thetal, x1) $6 星 型 坐标 区 
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图 14.22 图 环 图 图 14.23 星 型 坐标 图 
例 3.27 利用 极 坐 标 映射 的 方法 表示 Iris 数据 。 
解 : 
根据 极 坐 标 映射 的 原理 , 可 编程 计算 , 其 中 参数 默认 值 为 中 心 坐标 ( 1,1 ), fx)=x;g(0)=x; 厂 1。 
用 户 也 可 以 自行 设 定 。 


>> a=dlmread ('D:\ 数 据 .txt'); sg 读 入 数据 
3> Zale LAY $% 数 据 中 有 一 列 为 零 ， 删 除 
>> polarMap (x (:,1),1) % 图 14 .24， 其 余 变量 类 似 ， 不 再 列 出 
































图 14.24 花 准 长度 的 极 坐标 映射 图 
例 3.28 ”对 于 高 维 数据 ， 除 了 利用 例 14.23 中 的 各 种 方法 进行 可 视 化 显示 ,还 可 以 采用 诸如 








主 成 分 分 析 、 投 影 寻 踪 方 法 、 非 线性 映射 等 方法 进行 降 维 以 使 其 在 维 空间 中 显示 。 下 面 利用 这 三 
种 方法 对 表 14.2 中 的 数据 进行 降 维 处 理 。 
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表 14.2 15 个 标准 中 国 茶叶 样品 的 化 学 成 分 






































本 浓度 (%w/w) 

样 品 | 和 芋 维 夫 | 半 维 来 | 木质 素 | 共 多 二 | 册 寿 因 | 毛 基 起 
1 9.50 4.90 29.03 4.44 3.82 
2 10.06 5.11 27.84 4.29 3.70 
3 10.79 5.46 26.53 3.91 3.46 
4 10.31 4.92 25.16 3.72 3.29 
5 11.50 6.08 23.28 3.50 3.10 
6 12.10 5.64 22.23 3.38 3.02 
地 13.30 5.68 21.10 3.14 2.87 
8 9.07 5.33 27.23 4.20 3.18 
9 10.75 5.80 25.99 4.00 3.00 
10 10.78 5.72 24.77 3.86 2.91 
11 12.00 6.68 24.05 3.49 2.81 
12 12.17 5.86 人 23.02 3.42 2.60 
入 10.32 10.66 21.55 4.23 4.43 
14 10.99 10.11 20.64 4.14 4.35 
15 12.32 10.12 20.06 4.02 4.12 


解 : 
以 下 各 程序 中 的 “num” 均 表示 为 显示 样本 序号 样本 数 的 阔 值 。 
(1 ) 非 线 映射 方法 。 

设 有 高 维 数据 点 豆 Ceaxp,… xim)， 其 二 维 显示 的 对 应 点 是 Fomsoz)， 则 互 是 互 的 某 种 函数 ， 
如 果 y 是 各 x 的 某 一 线性 则 二 维 图 像 是 高 维 图 像 的 投影 。 如 果 y 和 x 间 的 关系 是 非 线 性 函 
数 ， 则 二 维 图 像 是 高 维 图 像 的 非 线 性 映射 (Non-linear Mapping，NLM )。 

根据 非 线性 映射 方法 ,映射 时 的 误差 函数 为 









品 ， 





权 1 ~ y y 下 
EAI -d= 
其 中 : 必 、 故 分 别 为 高 维 数据 和 二 维 数据 的 欧 氏 距离 。 据 此 可 利用 遗传 算法 对 该 函数 进行 最 小 
化 处 理 ， 找 到 合适 的 二 维 数据 结构 ， 完 成 高 维 数据 到 二 维 数据 的 非 线 性 映射 。 
根据 非 线 性 映射 的 方法 原理 ， 可 编程 计算 得 到 如 图 14.25 所 示 的 结果 。 


>> load data; 





>> y=myNLM (data, 40); 
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图 14.25 原始 数据 非 线性 映射 结果 的 图 像 


(2 ) 主 成 分 分 析 方法 。 


根据 主 成 分 分 析 方 法 原理 ， 可 编程 计算 得 到 如 图 14.26 所 示 的 结果 。 


>> [y,num]=myprincomp (data, 40); 




















T T T T T 
3 上 al b4 93 
2 
1 
OF 
(ea 

Gl1cp G 
-1 G2 qe 8 
2} 
-3[ 

3 2 1 0 1 2 


(3 ) 根据 投影 寻 踪 方法 的 原理 ， 可 编程 计算 得 到 如 图 14.27 所 示 的 结果 。 


>> y=myPP (x, 40); 


图 14.26 主 成 分 图 
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14.27 投影 寻 踪 的 结果 图 
要 注意 的 是 , 程序 中 数据 归 一 化 对 于 不 同 的 应 用 有 不 同 的 计算 方法 。 如 在 应 用 投影 寻 踪 进行 
评价 时 ， 对 于 越 大 和 越 小 的 指标 归 一 化 方法 就 有 所 不 同 : 


i 4 Wj — Xuan) 
对 于 越 大 越 优 的 指标 ，x = 一 -ee 
7 Xu(7) 一 Xun() 

Xmax (N) — Ny 

Naa J) — Xi (X) 
例 3.29 数据 挖掘 中 各 种 规则 的 可 视 化 表示 也 是 经 常会 遇 到 的 问题 。 现 用 平行 坐标 法 对 以 下 

规则 进行 可 视 化 表示 。 
rule={"I1,12313°" 0.5;"I2,I3-*I1" 0.5;"I13,Il312" 0.57"I1,I2-I5"” 0.5; 


对 于 越 小 越 优 的 指标 ，x = 


TT Tl 
解 : 
规则 的 可 视 化 表示 最 为 常见 的 是 平行 坐标 法 。 根据 其 原理 , 可 编程 绘制 如 图 14.28 和 图 14.29 
所 示 的 结果 。 


>> Parallel _ ass (rule,1) 


TO0p TTS LD Tl Evra O00 L512 10 


$s 图 14.28， 其 中 箭头 后 面 的 项 为 规则 的 后 件 


s 图 14-29， 其 中 圆 表示 规则 的 前 件 ， 拢 形 表示 为 规则 的 后 件 ， 
和 矩形 填充 颜色 表示 可 信 度 


>> parallel ass (rule,2) 
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1 3 5 

关联 规则 平行 坐标 
图 14. 28 规则 的 可 视 化 表示 图 (一 ) 

I5r 国 9 . 国 9 

4 田 

13 . 

Il2 . 0 本 国 [ 

1 . [J ® 外 下 | 

1 : 和 5 6 7 8 

关联 规则 平行 坐标 


图 14.29 规则 的 可 视 化 表示 图 (二 ) 
例 3.30 规则 除了 例 3.29 中 的 单 维 形式 ， 还 有 如 下 所 示 的 多 维 规则 ， 对 此 同样 可 以 用 平行 
坐标 法 表示 。 
rule={' 景 色 = 多 雨 人 湿度 = 正常 人 风力 = 无 活动 = 可 以 ', 0.6 
"景色 = 多 云 人 风力 = 大 人 活动 = 不 可 以 -温度 = 温 ",0.5 
"温度 = 热 人 湿度 = 高 人 风力 = 小 人 活动 = 可 以 -景色 = 多 云 ",0.8]; 
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解 : 
>> parallel assl (rule) $ 得 图 14. 30 
6 
5 小 
4 外 不 可 以 
可 上 尾 二 | [ 热 
| 
2 | 可 以 
pg 了 温 
了 最 色 风力 活动 ”温度 
关联 规则 平行 坐标 
图 14.30 多 维 规则 的 可 视 化 表示 图 
例 3.31 规则 的 可 视 化 表示 还 可 以 用 柱 形 图 。 用 此 法 表示 以 下 规则 : 


Ele=t "T1213 0 0 127T3 2311. "057" ToL 2" LO 
解 : 


>> parallel ass (rule,3); $ 得 图 14 .31 

















后 件 区 前 件 


图 14. 31 规则 的 可 视 化 表示 柱 形 图 
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例 3.32 利用 雷达 图 等 图 形 特征 也 可 以 对 样品 进行 分 类 。 试 利用 雷达 图 的 基于 重心 的 图 形 特 
征 对 Iris 数据 进行 分 类 分 析 。 

解 : 

因为 雷达 图 的 形状 与 特征 排序 有 关 ,， 而 固定 特征 排序 下 的 样本 对 应 唯一 的 雷达 图 。 一旦 特征 
排序 确定 , 从 雷达 图 中 提取 出 重心 图 形 特征 就 仅 与 这 个 固定 的 特征 排序 有 关 。 所 以 在 利用 图 形 特 
征 分 类 时 ， 首 先 要 确定 特征 的 排序 。 

可 以 用 遗传 算法 来 求 出 较 佳 的 特征 排序 ， 其 参数 设置 如 下 。 

种 群 数 : 30; 

迭代 次 数 : 100; 

变异 概率 : 0.05; 

交叉 概率 : 0.85; 

编码 长 度 : 特征 数 ， 本 例 中 为 4， 编 码 方式 为 1~4 的 正 整数 ， 如 [2 4 1 3]， 编 码 顺序 即 为 数字 
对 应 的 特征 的 排序 。 

适应 度 函 数 : 图 形 特征 分 类 器 对 样本 分 类 的 正确 率 。 其 中 随机 采用 2/3 的 样本 作为 训练 集 ， 
其 余 为 测试 集 ， 计 算 测 试 集 分 类 结果 的 正确 率 。 

根据 以 上 参数 ， 就 可 以 编程 进行 计算 。 编 程 时 要 注意 的 是 基因 经 过 变异 、 交 叉 操 作 后 , 会 出 
现 不 合理 的 编码 ( 即 出 现 重 码 以 及 缺 码 ) ， 因 此 在 编 变 异 及 交叉 函数 时 需要 进行 处 理 ， 以 防止 这 
类 情况 的 产生 。 

计算 结果 如 下 : 

>> a=dlmread ('D:\ 数 据 .txt'); 

Sa 






































>>m=30;t=100;pc=0.85;pm=0.05;class=[ones (50,1);2*ones (50,1) ;3*ones (50,1)]; 
>>y=graph ga (x,m,t,pc,pm,class); 

其 中 一 次 的 计算 结果 : 

y =value: [4 3 1 2]  ”% 迭 代 6 次 的 结果 


| 
此 排列 顺序 ， 也 可 以 根据 spearman 系 数 进行 对 比 。 此 例 中 的 spearman 系 数 如 下 。 
>> y=spearman (x) $ 人 负数 表示 负 相 关 
Y= 1.0000 -0.1608 0.8821 0.8352 
1.0000 1.0000 = 人 3027 =0:2773 
1.0000 1.0000 1.0000 0.9380 
1.0000 1.0000 1.0000 1.0000 




















例 3.33 ”基于 图 形 相 异 度 的 图 形 分 类 器 可 以 用 于 未 知 样 本 的 分 类 。 试 利用 单 原型 图 形 分 类 器 











对 Iris 数据 中 的 数据 进行 分 类 分 析 ， 以 检验 方法 的 适用 性 。 
解 : 
选择 Iris 数据 集中 适量 的 三 类 样本 作为 训练 样本 ， 适 量 的 样本 作为 测试 样本 。 然 后 根据 模板 
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匹配 法 原理 进行 测试 样本 的 分 类 。 
据 此 ， 可 编程 计算 如 下 。 
>>a=dlmread ('D:\ 数 据 .txt'); 
>>x=a(:,1:4); 
>>train=s{Iz(l: 10. :) (SL 60. 0) x(10L L110) 
>>classl=[ones (10,1);2*ones (10,1);3*ones (10,1)]; 
>>sample=[x(12:15, :);x(63:65, :);x(121:123,:)]; 
>> y=gram classify (train, sample,class1); sg 分 类 完全 正确 
y =1 a 于 下 2 2 3 &| 3 


例 3.34” 径 向 坐标 可 视 化 ， 也 称 为 弹簧 力 模型 是 Hoffman 等 人 于 1997 年 提出 的 一 种 多 维 数 
据 可 视 化 表示 方法 。 其 基本 思想 是 在 二 维 平面 上 的 一 个 圆 内 部 将 所 有 样本 以 点 的 形式 表示 出 来 ， 
而 样本 的 特征 值 均等 分 布 在 圆周 上 。 该 方法 可 以 用 实际 中 的 弹 短 力 平衡 物理 模型 来 理解 : 映射 点 
连接 多 根 弹 簧 的 一 端 , 各 弹簧 的 另 一 端 与 均等 分 布 在 圆周 的 特征 点 连接 , 某 根 弹簧 的 刚度 为 样本 
在 该 特征 的 定量 值 ， 映 射 点 稳定 于 各 弹簧 合力 为 零 处 。 

试用 径 向 坐标 可 视 化 方法 表示 Iris 数据 。 

解 : 

径 向 坐标 可 视 化 方法 的 原理 如 图 14.32 所 示 。 据 此 以 及 力 平衡 原理 ， 便 可 以 编程 计算 映射 点 
的 坐标 ， 并 画 出 其 图 像 。 





R5 
图 14.32 径 向 坐标 图 原理 
>> a=dlmread ('D:\ 数 据 .txt'); 
> > a 
>> class=[ones (50,1);2*ones (50,1);3*ones (50,1)]; 


>> radviz (x,class) 


作 图 时 可 以 将 圆 画 出 ， 也 可 以 不 画 出 ， 如 图 14.33 所 示 。 
另外 ， 可 以 通过 函数 中 的 type 参 数 对 传统 的 径 向 坐标 图 进行 改进 ( 此 时 为 's' ,传统 的 为 mn' ) ， 
即 在 1/4 圆 周 上 将 维 数 等 分 ， 这 样 可 使 点 更 分 散 ， 如 图 14.34 所 示 。 
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图 14.34 


0.35 0.4 0.45 0.5 0.55 0.6 0.65 


Iris 数据 的 径 向 坐标 图 (1/4 圆 ) 





例 3.35 利用 色 度 学 原理 也 可 以 表示 高 维 数据 集 。 颜色 是 视觉 系统 中 可 见 光 的 感知 结果 , 可 
见 光 是 波长 在 400~700mn 之 间 的 电磁 波 ， 人 眼 所 能 感受 到 的 只 是 波长 在 可 见 光 范 围 内 的 光波 信 





号 , 当 各 种 不 同 波长 的 光波 信号 一 同 


进入 人 的 眼睛 的 某 一 点 时 , 人 的 视觉 器 官 会 将 它们 混合 起 来 ， 


作为 一 种 颜色 接受 下 来 。 因此 ， 如 果 将 多 维 数据 集中 的 每 维 数据 当 作 一 段 波长 的 光 ， 则 经 过 一 定 





的 处 理 〈 如 同 颜色 的 混合 )， 类 似 于 











三 基色 坐标 系 表 示 一 种 颜色 一 样 ， 就 可 以 在 三 维 坐标 图 中 将 





多 维 数据 表示 出 来 。 
试用 此 方法 表示 Iris 数据 集 。 
解 : 


对 于 多 维 空间 中 的 每 一 个 数据 点 X， 可 以 将 其 看 作 是 一 个 彩色 刺激 函数 为 xD)， 均 匀 地 分 布 
在 波长 为 400~700mn 的 可 见 光波 长 范围 内 ， 即 x《400)=xa, x{700)=xp， 从 而 得 到 ws 对 应 波长 的 函数 

















关系 xi(4)， 青 和 








日 光谱 响应 函数 对 彩色 刺激 函数 的 转换 就 可 以 推出 数据 x 的 三 维 R、G、B 坐 标 : 
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R=kxD EDA 
G=kx xDsOAa 
B=kx Dba 
式 中 : 1 为 比例 系数 ; r、g、 2 分 别 为 光 分 布 色 系数 (由 表 可 查 ) ， 如 图 14.35 所 示 。 




















图 14. 35 光 分 布 色 系数 


据 此 ， 可 编程 计算 发 如 下 。 
>> a=dlmread('D:\ 数 据 .txt') 7 
>> x=a(:,1:4); 


>> chrogram(x); $ 得 图 14 .36 














-0.8 -0.6 -0.4 -0.2 0 0.2 0.4 0.6 


图 14.36 Iris 数据 的 图 像 表 示 
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从 图 中 可 看 出 ， 数 据 可 以 分 成 两 秘 ， 其 中 一 簇 为 第 一 类 ， 另 外 一 簇 为 二 、 三 类 样品 ,与 
用 径 向 坐标 表示 的 结果 类 似 。 

例 3.36 脸谱 图 是 用 脸谱 来 表达 多 变量 的 样品 。 一 个 人 的 脸谱 可 以 具有 非常 生动 的 表情 及 形 
象 ， 脸 的 胖 瘦 、 喜 她 哀乐 给 人 留 下 深刻 的 印象 。 用 脸谱 来 表达 多 变量 首先 是 由 美国 统计 学 家 
H.Chernoff 于 1970 年 提出 的 ， 他 将 样品 的 p 个 变量 用 人 脸 的 某 一 个 部 位 的 形状 或 大 小 来 表示 ， 
一 个 样品 用 一 张 脸谱 来 表达 。 他 首先 将 脸谱 图 用 于 聚 类 分 析 之 中 , 引起 了 各 国 统计 学 家 的 极 大 兴 
趣 ， 并 得 到 了 广泛 的 应 用 。 

脸谱 图 在 应 用 上 存在 的 最 大 问题 是 变量 安排 的 次 序 , 用 哪个 变量 来 画 脸 的 哪个 部 位 存在 着 人 
的 主观 性 ， 而 不 同 的 用 法 给 人 留 下 的 脸谱 的 印象 大 不 相同 ,严重 时 可 能 会 失真 。 研 究 表明 ,随机 
地 安排 变量 大 约会 造成 23% 的 误差 变动 。 所 以 在 某 个 领域 的 实际 应 用 过 程 中 , 脸谱 图 都 要 经 过 一 
定 的 探索 才能 绘制 出 合理 的 脸谱 图 , 工作 量 比较 大 , 并 且 不 一 定 适 合 其 他 领域 的 应 用 。 为 了 解决 
这 个 问题 ,可 以 采用 主 成 分 分 析 方 法 来 解决 对 应 变量 的 分 配 问题 。 经 过 主 成 分 分 析 后 , 取 工 个 最 
大 的 特征 值 对 应 的 特征 矢量 作为 新 变量 输入 , 工 的 取 值 范围 为 E&Z 入 dg， 其 中 4 为 维 数 ,， 上 为 主 
成 分 数 , 一 般 取 方差 贡献 率 在 96% 以 上 的 主 成 分 数目 , 工 =4 表示 全 部 保留 所 有 主 成 分 , 当 4> 时 




































































18， 可 以 增加 脸谱 特征 ， 也 可 以 只 保留 L (L<18 ) 个 主 成 分 。 但 是 当 工 (Z 入 18 ) 个 主 成 分 的 
方差 累计 贡献 率 低 于 95% 时 ， 则 只 有 增加 脸谱 特征 。 

脸谱 图 中 数据 的 大 小 对 图 形 有 很 大 的 影响 ， 各 变量 的 范围 如 表 14.3 所 示 。 可 以 对 原始 数据 
进行 归 一 化 处 理 后 再 画 脸 谱 。 

表 14.3 ”脸谱 图 各 变量 的 定义 及 范围 
变 量 | 变量 在 脸谱 上 的 定义 变量 在 脸谱 上 的 定义 ”| ”数值 范围 

a OP 的 长 度 | 加 | 限 的 位 置 ( 纵 坐 标 ) 0~1 

车 x 轴 与 OP 的 角度 | ws， | 限 的 位 置 ( 横 坐标 ) 0~1 

OU=OL 的 长 度 | “ww | 限 的 倾斜 角 0~1 

加 脸 的 上 相 加 离心 率 | _* |_ 限 的 椭 加 离心 率 04~08 

季 脸 的 下 椭圆 离 心率 眼 的 长 轴 的 长 度 0~1 

加 党 子 的 长 度 | “ws | ”眼球 的 位 置 0~1 

和 中 的 位 置 眼 到 眉 的 高 度 0~1 

各 嘴 的 曲率 Xi 眉 的 倾斜 角 0~1 

嘴 的 大 小 2 届 的 长 度 0~1 





请 画 出 下 列 数 据 的 脸谱 图 : 




















[10.13°0504'0555' 0325° 0.15" .0-1 0=1 3'0:4 /0:3 .0602 0530:70.5 .03 .0:2 055"0:3 


OS 
解 : 


>> face (x 


0.5] 


); 


得 到 如 图 14.37 所 示 的 脸谱 








图 
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图 14. 37 脸谱 图 
脸谱 图 也 可 以 用 其 他 软件 绘制 ,图 14.38 即 为 用 RR 语言 画 出 的 一 个 随机 脸谱 图 。 
随机 脸谱 


二 


人 向 全 
命 合 信 
党 镶 和 


图 14. 38 RR 语言 画 出 的 脸谱 图 
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15.1 ”公式 发 现 概 述 


自然 界 存在 着 无 数 的 规律 ( 公式 )， 除 了 已 被 发 现 的 以 外 ， 还 有 很 多 规律 需要 人 们 去 发 现 。 
在 大 量 的 工程 问题 中 , 同样 也 存在 着 大 量 的 实验 数据 需要 人 们 去 寻找 其 内 在 的 规律 性 。 在 这 个 过 
程 中 ,计算 机 的 广泛 应 用 极 大 地 提高 了 公式 发 现 的 效率 , 其 中 数据 拟 合 是 较为 常用 的 方法 。 数 据 
拟 合 是 利用 科学 实验 中 得 到 的 大 量 测量 数据 ,去 求 自 变量 和 因 变 量 间 的 近似 公式 。 但 数据 拟 合 虽 
然 能 解决 一 些 实际 问题 ， 但 它 只 能 对 一 般 实验 数据 找到 满足 精度 的 逼近 公式 。 
随 着 人 工 智能 技术 的 发 展 , 机 器 发 现 技 术 得 到 发 展 。 机 器 发 现 是 指 从 一 组 观察 结果 或 数据 归 
纳 中 ， 找 出 这 些 数据 的 一 个 或 多 个 规律 。 比 较 典 型 的 系统 有 : 科学 发 现 系统 BACON， 数 据 概念 
给 定 一 组 可 观察 变量 X(x1x2,… ;xn) 以 及 这 组 变量 的 试验 数据 Di(di,dz,…,din), 二 1,2,…,m, 机 
器 公式 发 现 系统 要 找 出 该 组 变量 满足 的 数学 关系 式 ， 即 对 于 任意 一 组 试验 数据 均 满 足 的 关系 式 
fxr, xn)=c， 其 中 c 为 常数 。 
所 找 出 的 关系 式 是 任何 形式 的 数学 公式 ， 可 分 为 以 下 几 类 。 
(1 ) 变量 的 初等 运算 : /xy)=xby， 其 中 0 为 +、-、x、/。 
(2 ) 变量 的 初等 函数 运算 : fx)=c， 其 中 fx) 为 初等 函数 。 
(3 ) 初等 函数 的 任意 组 合 : fxy)=ayfx)9asfy)， 其 中 0 为 +、 一 、x、/。 
(4 ) 复合 函数 的 运算 g(x))=c， 其 中 g(x)、h) 均 为 初等 函数 。 
(5 ) 复合 函数 的 任意 组 合 h(arg1(Nx))9a2g2(1y)))， 其 中 ，h(x)、g(x)、f?) 均 为 初等 函数 ，0 
ME 
(6 ) 多 个 初等 函数 的 组 合 : ftxy)=ayfi(w0azp().…9ayfi3)， 其 中 RO)、0) 均 为 初等 函数 ，0 
光志 
(7) 分 段 函 数 : 对 于 不 连续 的 点 ， 分 别 用 不 同 的 函数 加 以 描述 。 
对 于 多 变量 更 为 复杂 的 公式 的 发 现 , 一 般 是 先 寻 找 两 变量 的 关系 , 再 逐步 扩充 为 多 变量 的 关系 。 


15.2 ”公式 发 现 系统 中 的 知识 


经 验 公式 发 现 系 统 FDD ( formula discovery from data ) 的 基本 思想 是 利用 人 工 智能 启发 式 搜 
索 函 数 原 型 寻找 具有 最 佳 线性 逼近 关系 的 函数 原型 , 并 结合 曲线 拟 合 技 术 及 可 视 化 技术 来 寻找 数 
据 间 的 规律 ， 其 总 体 结构 如 图 15.1 所 示 。 

FDD 系统 在 搜索 时 ， 对 某 一 变量 取 初 等 函数 和 另 一 个 变量 的 初等 函数 或 原始 数据 进行 线性 
组 合 , 即 从 原型 库 中 选取 逼近 效果 最 好 的 少数 几 个 初等 函数 作为 基 函 数 , 并 进一步 形成 组 合 函数 ， 
直至 找到 最 后 的 目标 函数 。FDD 系统 的 启发 式 函 数 形式 为 : 

Axy)=a + bfi(xy 





























线性 允 近 误差 公式 为 
dr-(a + bAx1) Ax2) /Axo) 
在 选择 过 程 中 ， 总 是 选取 qt 最 小 的 函数 作为 继续 搜索 的 当前 节点 。 
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循环 
公式 发 现 控制 
公式 库 
图 15.1 公式 发 现 系统 
具体 过 程 如 下 : 


步骤 1: 固定 变量 ?>， 对 变量 x 进行 学 习 ， 即 在 现 有 原型 基础 上 ， 根 据 原型 库 中 的 函数 依次 
对 实验 数据 进行 匹配 ， 用 最 小 二 乘法 求 出 a、5b 系数 ， 记 录 每 次 学 习 后 a、5 值 和 误差 w， 若 某 一 
原型 经 过 线性 组 合 后 与 试验 数据 的 相对 误差 小 于 一 给 定 值 ， 则 学 习 成 功 , 求 得 f(x)=a+b*y， 
否则 转 步 又 2。 

步骤 2: 固定 步骤 1 所 求 得 的 /(xz )， 对 y 进行 学 习 ， 方 法 同步 又 1， 求 得 ,A(x) =a+6&f(y)， 
若 此 时 的 误差 小 于 给 定 值 , 则 学 习 成 功 。 否则 继续 搜索 。 此 后 的 搜索 可 以 是 初等 函数 的 线性 组 合 ， 
或 父 套 函数 形式 。 


15.2.1 规则 一 ( 函数 规则 ) 





主要 的 基本 规则 有 以 下 几 种 。 
1. 发 现 常数 
若 一 个 变量 x 取 一 个 常数 ， 则 建立 的 该 变量 常数 的 公式 为 


X=C 
2. 两 变量 的 初等 运算 组 合 
当 两 变量 进行 初等 运算 时 ， 若 等 于 常数 ， 则 建立 的 该 变量 的 初等 运算 关系 式 为 


alxlga2x> 
其 中 : 9 为 +、-、x、/。 
3. 变量 取 初 等 函数 
若 某 变量 取 初 等 函数 等 于 常数 ， 则 建立 的 该 变量 的 初等 函数 关系 式 为 
fe 
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其 中 : f(y) 为 初等 函数 。 


4. 两 变量 取 初 等 函数 的 线性 组 合 
两 变量 分 别 取 初 等 函数 后 的 线性 组 合 等 于 常数 , 则 建立 的 两 变量 取 初 等 函数 的 线性 组 合 关系 
式 为 
afxi)tafx) 
其 中 : fr)、 fltx2) 为 初等 函数 。 
5. 某 变量 取 某 一 初等 函数 与 另 一 变量 的 线性 组 合 


对 某 一 变量 x 取 初 等 函数 后 与 男 一 变量 六 进行 线性 组 合 ， 若 为 常数 ， 则 建立 的 关系 式 为 
cM) taxme 





6. 对 某 一 变量 扫 取 初等 函数 


另 一 变量 x; 取 两 个 x 的 初等 函数 进行 线性 组 合 ， 若 为 常数 ， 则 建立 的 关系 式 为 
cifi(wi) tcf) + cg(%i)=c 


7. 建立 新 变量 ( 启发 式 1 ) 

若 两 变量 的 某 初等 运算 接近 常数 ， 则 建立 新 变量 为 该 两 变量 的 某 种 初等 运算 。 

8. 建立 某 变量 的 某 种 初等 函数 为 新 变量 ( 启发 式 2 ) 

若 某 变量 的 某 种 初等 函数 与 男 一 变量 或 它 的 初等 函数 进行 线性 组 合 接近 常数 , 则 建立 该 变量 
的 初等 函数 为 新 变量 。 

以 上 规则 的 做 套 或 递归 使 用 , 将 形成 变量 的 任意 函数 间 的 任意 组 合 。 在 应 用 规则 时 , 利用 可 
视 化 技术 将 减少 各 种 函数 和 各 种 运算 的 运算 ， 大 大 节省 搜索 时 间 。 
15.2.2 ”规则 二 ( 导数 规则 ) 

规则 二 是 有 关 差 分 和 差 商 的 知识 应 用 。 





1. 差分 发 现 常数 
当 某 一 变量 差分 y 取 一 个 常数 。， 则 建立 的 该 变量 等 于 常数 的 公式 为 
J=atex 
2. 差 商 发 现 常数 
当 两 个 变量 差 商 取 一 个 常数 。， 则 建立 的 该 变量 等 于 常数 的 公式 为 
y=e 
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等 函数 
商 等 。 
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3. 特殊 函数 形式 导数 函数 


(1 ) 阶 差 (向 前 差分 ) 法 判定 类 型 

若 A?y,= 定 值 ， 则 方程 为 : y=atbxtcx? 

若 A3y, = 定 值 ， 则 方程 为 : y=atbxtexs+dx 

若 A(y,)” = 定 值 ， 则 方程 为 : y =atbx 

若 A2(07”) = 定 值 ， 则 方程 为 : JPao+brtex2 

若 A?(x, /yy) = 定 值 ， 则 方程 为 : ) 王 rw(o+Brtcxr) 
若 Ay 成 等 比 数列 ， 则 方程 为 : y=ab™+e 

若 Alog(y,) 成 等 比 数列 ， 则 方程 为 : log(y)=atb*+ex? 
若 A?y 成 等 比 数列 ， 则 方程 为 : y=ab*+cx+d 

(2 ) 差 法 判定 类 型 

车 Alog(y,)/Alog(x,)= 定 值 ， 则 方程 为 : logQ)=axe 
若 Alog(y,)/Ax,= 定 值 ， 则 方程 为 : y=ab* 

若 A(x,y,)/Ax,= 定 值 ， 则 方程 为 : y=at6b 

若 A(x, /yy)/ Ax,= 定 值 ， 则 方程 为 : y=x/(ax+b) 

若 Ay, /A(x,)》= 定 值 ， 则 方程 为 为 : y=atbx 


4. 两 变量 的 导数 运算 组 合 
当 两 变量 差分 商 后 进行 初等 运算 若 等 于 常数 ， 则 建立 的 该 变量 的 初等 运算 公式 为 
AfAx1 Ox )=e 


其 中 : 6 为 +、- 、x、/ ，Af 为 差分 或 差 商 计算 。 


5. 两 变量 取 导 数 运算 的 线性 组 合 
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两 变量 分 别 取 导数 运算 后 的 线性 组 合 等 于 常数 , 则 建立 的 两 变量 取 导 数 运算 的 线性 组 合 关 





系 式 为 


aiAfi(x1) tasAp(x2)=e 


其 中 : Afi(wy)、Af(x2) 为 导数 运算 。 


以 上 规则 和 规则 一 艇 套 或 递归 使 用 ， 将 形成 变量 的 任意 函数 和 导数 运算 组 合 。 


15.2.3 多维 函数 扩展 规则 


多 维 函 数 空间 由 初等 函数 、 初 等 函数 组 合 、 复 合 函数 、 复 合 函 数组 合 、 函 数 导 数 等 组 成 。 初 














合 是 初等 函数 之 间 的 运算 组 合 ; 导数 处 理 包 括 一 阶 差分 、 二 阶 差分 、 一 阶 差 商 、 二 阶 差 


多 维 函 数 空间 中 的 函数 作用 于 变 元 或 常数 、 函 数 仍然 属于 函数 空间 , 这 样 为 计算 机 对 函数 空 


间 的 处 理 提供 了 可 以 递归 的 前 提 。 
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1. 扩展 到 三 维 函数 公式 的 启发 式 规则 
设 给 定 ”组 不 同 的 数据 tb.xa ,xpj 二 1.2，,n ， 存 在 不 同 的 函数 有 i 万 户 万 以 及 常数 
CuC2B1B2， 有 如 下 函数 关系 : 
(1 ) 如 果 在 给 定 x 的 情况 下 得 出 x1 和 x 的 方程 为 
JecD)=CvCoo)+C> 
在 固定 x 的 情况 下 得 出 xi 和 x 的 方程 为 
JiGccD=BURCs)+B> 





则 有 如 下 的 启发 式 公式 

i)=C Ga) + C2 
ir)=C Hp) C2 ARCa)+C3 
(2 ) 如 果 在 周 定 x 的 情况 下 得 出 x 和 x 的 方程 为 
x-Byalx3)+B, 





则 有 如 下 多 个 启发 式 公 式 
FA)C Ha) tC ) OB Yr)+B ») 
其 中 : 6 为 +、- 、x、/ 等 操作 。 或 者 
JiGeo)=eGee)+C Ca)+CaRGCo)+C3 

g 函数 的 结构 形式 实质 上 是 函数 及 和 及 的 复合 形式 ， 由 于 名和 有 系数 项 也 有 常数 项 ， 故 入 
复合 函数 形式 根据 具体 函数 的 不 同 有 不 同 的 合并 方式 , 通常 用 一 个 公式 的 函数 项 去 替换 另外 一 个 
公式 的 系数 和 常数 。 

2. 扩展 到 四 维 函 数 公式 的 启发 式 规则 


设 在 三 维 数据 的 基础 上 增加 一 维 数据 xs， 如 果 得 到 公式 
flx2)=Cig(xix3) tC FI f(x2)=Cfxa) tC 





则 有 如 下 启发 式 公式 
fr2)=C" igrixa (ra) + C2 
le)=C "igrixa) tC axa) tC 3 


3. 多 维 函 数 的 扩展 


通过 增加 函数 变量 可 以 实现 对 多 维 函 数 变 量 公式 的 发 现 多 维 函 数 扩展 规则 给 出 了 函数 公式 
的 具体 框架 表示 形式 ， 最 后 必须 通过 给 定 的 数据 对 各 个 启发 式 公式 进 行 检验 ,决定 公式 的 取舍 。 


15.2.4 规则 三 


1. 函数 规则 


对 某 一 变量 取 函 数 空间 中 的 一 个 函数 后 与 另 一 变量 的 函数 进行 线性 组 合 ， 得 到 函数 公式 后 ， 
代入 和 值 ， 取 函数 公式 两 边 值 的 误差 最 小 ， 则 有 函数 公式 
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ath* f(am)=a, +b,* f(x,) 
2. 函数 嵌 套 规则 
对 函数 规则 嵌 套 或 递归 使 用 ， 将 形成 变量 的 任意 组 合 。 








3. 误差 规则 

(1 ) 误差 最 小 规则 : 选择 误差 最 小 的 公式 进入 下 一 次 迭代 ; 

(2 ) 误差 收敛 规 则 : 保留 误差 减少 的 搜索 方向 ， 上 一 次 迭代 的 误差 大 于 目前 的 误差 ， 则 对 
于 这 一 搜索 方向 予以 保留 。 

4. 终止 规则 

终止 规则 由 两 部 分 组 成 : 一 是 强制 终止 ; 二 是 自然 终止 。 强 制 终止 通过 对 算法 参数 的 设 定 ， 


主要 是 通过 对 和 迭代 次 数 的 设 定 完成 终止 准则 。 自然 终止 由 两 种 情况 组 成 : 一 种 是 找到 一 组 满足 给 
定 误差 的 公式 ; 另 一 种 情况 是 判断 出 误差 增 大 时 ， 停 止 该 路 径 的 搜索 。 


15.3 ”基于 MATLAB 的 公式 发 现 


例 3.37 炼 钢 厂 出 钢 时 所 用 盛 钢 水 的 钢 包 , 在 使 用 过 程 中 由 于 钢 液 及 炉渣 对 包 衬 耐火 材料 的 
侵蚀 ， 使 其 容积 不 断 增 大 ， 钢 包 的 容积 与 相应 的 使 用 次 数 ( 即 包 龄 ) 的 数据 如 表 15.1 所 示 。 
表 15.1 钢 包 容积 数据 








使 用 次 数 x 容积 y 
下 110.59 
4 110.90 
7 110.00 111.00 
8 109.93 111.20 
10 





解 : 

根据 公式 发 现 搜索 过 程 的 原理 ， 可 编程 计算 得 到 如 下 结果 。 

Se 

>>y1=[106.42 108.20 109.58 109.50 110.00 109.93 110.49 110.59 110.60 110.90 
T1076 0 120] 

>> [f£ _F,d,x]=FDD(x1,y1); 

SR 'log (x)" sg 函数 形式 

>> x=4.7141 -0.0903 $ 回 归 系 数 
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通过 此 方法 搜索 得 到 的 函数 要 比 纯粹 的 回归 分 析 得 到 的 函数 表达 式 更 具有 物理 意义 , 即 更 能 
反映 变量 间 的 关系 。 











在 应 | 


FDD 时 ， 应 注意 以 下 几 点 。 





(1 ) 要 根据 数据 点 间 的 关系 ， 以 及 变量 定义 域 等 因素 ， 选 择 适当 的 函数 。 在 搜索 过 程 中 ， 
既 可 以 一 次 性 选择 函数 ， 也 可 以 多 次 选择 。 


x2) 





原型 函数 据 库 越 丰富 ， 就 越 利 于 公式 的 搜索 。 如 果 原 型 函数 不 能 满足 要 求 ， 可 以 自己 


添加 其 他 的 函数 式 。 
(3 ) 搜索 时 ,一 般 要 对 两 个 方向 ( 即 x 一 AW)3J0) 一 以 及 y 一 A 一 RD) 一) ) 进行 搜索 ， 
然后 比较 误差 大 小 ， 最 终 确定 函数 形式 。 此 例 中 两 个 方向 搜索 得 到 的 函数 关系 就 不 相同 。 
例 3.38 对 以 下 数据 进行 公式 搜索 。 
X1=(2:21) "7 
Yl=[21.656 9.24056 17.1851 23.4166 9.9625 14.9247 24.5738 11.1534 12.9081 24.9996 
2 000N LL ZA 224.50274 14570907 0022 23550807 LieOA00 9 ZT5 02 003 
T93598]0 > 


解 : 





对 数据 点 作 图 ， 得 图 15.2。 


26 





1o 上 J 











图 15.2 数据 间 的 关系 图 


从 图 中 可 看 出 ， 变 量 之 间 具 有 周期 性 ， 所 以 除 选 择 一 般 的 函数 外 ， 可 选择 三 角 函 数 。 


>> [£ F,d,x]=FDD(zxl1,y1); 


>> £ F="(sin(x)).^2" "sqrt (x)" $ 函 数 形式 
>> x=3.0001 1.9998 $ 回 归 系 数 


事实 上 ， 此 例 的 数据 点 的 关系 是 根据 函数 关系 式 所 得 出 


Vy =2sin’ (x)+3 


*10s 


多 媒体 数据 挖掘 技术 


四 实战 大 数据 一 一 MATLAB 数据 挖掘 详解 与 实践 
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16.1 ”多 媒体 数据 挖掘 技术 概述 


多 媒体 数据 包括 结构 化 的 数据 、 半 结构 化 的 数据 和 非 结 构 化 的 结构 , 如 音频 数据 、 视 频数 据 、 
文本 数据 和 图 像 数 据 等 。 

由 于 存储 技术 的 迅速 发 展 以 及 网 络 应 用 的 普及 , 网 络 上 已 经 拥有 大 量 的 文本 和 图 像 数据 。 此 
外 ,新 闻 服务 每 天 也 会 产生 大 量 的 视频 和 音频 数据 。 如 何 应 用 好 这 些 多 媒体 资源 的 问题 , 已 越 来 
越 引 起 人 们 的 注意 。 这 些 研究 以 前 主要 集中 在 基于 内 容 的 信息 检索 方面 , 取得 的 成 果 在 一 定 程度 
上 解决 了 信息 搜索 和 信息 资源 发 现 的 问题 。 但 因为 信息 检索 只 能 获取 与 用 户 要 求 了 相关 的 “ 信 
息 ， 不 能 发 现 和 分 析出 蕴含 在 大 量 多 媒体 数据 中 有 价值 的 “知识 ”。 为 此 ， 更 为 迫切 的 是 需要 研 
究 比 多 媒体 信息 检索 更 高 层次 的 新 方法 , 这 就 是 多 媒体 数据 挖掘 。 多 媒体 数据 挖掘 就 是 通过 综合 
分 析 多 媒体 数据 的 内 容 和 语义 ， 从 大 量 多 媒体 数据 中 发 现 隐 含 的 、 有 效 的 、 有 价值 的 、 可 理解 的 
模式 ， 得 出 事件 的 发 展 趋向 和 关联 关系 ， 为 用 户 提供 问题 求解 层次 上 的 决策 支持 能 力 。 

现实 世界 上 大 量 的 数据 以 多 媒体 数据 形式 存在 , 目前 绝 大 多 数 数据 挖掘 工具 是 针对 关系 数据 
库 开发 的 ,因此 有 必要 对 多 媒体 数据 挖掘 方法 进行 研究 。 多 媒体 挖掘 的 方法 有 两 种 ， 一 种 是 先 从 
多 媒体 数据 库 中 提取 结构 化 的 数据 , 然后 再 用 传统 的 数据 挖掘 工具 在 这 些 结构 化 的 数据 上 进行 控 
据 ; 另 一 种 解决 办 法 是 研究 开发 可 以 直接 对 多 媒体 数据 进行 挖掘 的 工具 。 严 格 地 讲 , 多 媒体 数据 
是 指 由 多 种 不 同类 型 媒体 数据 组 成 的 ， 包 括 文本 、 图 形 、 图 像 、 声 音 、 视 频 、 动 画 等 不 同类 型 的 
媒体 数据 ， 为 了 挖 据 多 媒体 数据 ， 必 须 对 两 种 或 多 种 类 型 的 媒体 数据 进行 综合 挖掘。 


16.1.1 数据 类 型 


在 描述 多 媒体 数据 时 必然 涉及 一 些 多 媒体 特征 。 因 此 , 需要 有 捕捉 复杂 数据 类 型 和 数据 关系 
的 方法 。 比 如 时 间 约 束 就 包括 “播放 前 “播放 后 ”等 。 假 设 有 两 个 对 象 A 和 B，A 包括 2000 
帧 ，B 包括 3000 帧 ，A 所 在 的 时 间 段 是 4/95~8/95，B 的 时 间 段 是 5/95~10/95。 需 要 有 一 定 的 数 
学 模型 恰当 地 描述 这 些 特 征 。 

恰当 的 数据 模型 对 描述 一 个 多 媒体 管理 系统 是 至 关 重要 的 。 可 以 用 关系 型 、 面 向 对 象 型 及 以 
对 象 一 关系 型 数据 模型 来 描述 多 媒体 数据 。 关 
系 模型 能 够 捕捉 数据 之 间 的 关系 ; 面向 对 象 模 
型 可 以 描述 复杂 结构 。 图 16.1 所 示 的 是 面向 对 
象 的 模型 ， 图 中 的 每 个 对 象 和 数据 模型 中 的 每 
个 对 象 相关 联 。 对 象 的 属性 可 以 由 实例 变量 描 
述 ， 包 括 时 间 片 、 帧 和 内 容 描述 等 。 在 关系 模 
型 中 ， 对 象 和 一 个 关系 的 实例 相关 。 在 对 象 一 
关系 模型 中 ， 实 例 的 属性 值 可 以 是 一 个 对 象 。 
例如 对 象 A 的 实例 属性 值 “ 时 间 片 ”就 是 成 对 图 16.1 面向 对 象 模型 
出 现 的 (4/95，8/95 )， 图 16.2 所 示 的 即 为 用 对 
象 模型 描述 对 象 A。 对 于 同样 的 对 象 ， 用 图 16.3 对 象 一 关系 模型 描述 ， 可 以 支持 多 媒体 数据 的 
复杂 关系 。 这 些 关系 可 以 是 对 象 之 间 的 时 序 关 系 ， 例 如 “同时 播放 "“ 播 放 前 ”或 “播放 后 "。 
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图 16. 2 对 象 模型 图 16. 3 对 象 一 关系 模型 
无 论 哪 种 模型 都 需要 扩展 才能 捕获 时 间 结构 和 其 他 特征 。 与 数据 模型 相关 的 还 有 查询 语言 。 
查询 语言 应 该 具备 操作 多 媒体 数据 库 的 能 力 。 例 如 ， 查 询 播放 视频 片段 中 第 500~1000 帧 等 。 


16.1.2 多 媒体 数据 库 管理 系统 ( MM - DBMS ) 


多 媒体 数据 库 系统 是 多 媒体 挖掘 的 对 象 ， 它 由 多 媒体 数据 库 管理 系统 和 多 媒体 数据 库 构 成 。 
其 中 , 多 媒体 数据 库 用 于 存储 和 管理 多 媒体 数据 ,多 媒体 数据 库 管 理 系统 负责 对 多 媒体 数据 库 进 
行 管理 。 多 媒体 数据 库 管理 系统 对 存储 、 管 理 和 检索 多 媒体 数据 提供 支持 。 在 某 种 意义 上 ， 多 媒 
体 数 据 库 是 一 种 异 构 数 据 库 系 统 , 因为 它 管理 的 文本 、 图 像 、 视 频 和 音频 等 数据 的 媒体 各 不 相同 。 

多 媒体 数据 库 管理 系统 不 但 提供 包括 查询 处 理 、 更 新 处 理 、 事 务 管理 、 存 储 管理 、 元 数据 管 
理 、 安 全 性 以 及 完整 性 在 内 的 典型 数据 库 管理 系统 功能 , 而 且 要 满足 异 构 数据 的 特殊 需要 。 例如 ， 
声音 和 图 像 必须 同步 播放 , 各 种 接口 要 求 等 问题 。 此 外 , 实时 处 理 也 是 它 所 面临 的 主要 问题 之 一 。 

多 媒体 数据 库 管理 系统 必须 支持 基本 的 数据 库 管理 系统 功能 , 这 些 功 能 包括 数据 操作 ( 查询 、 
更 新 处 理 )、 事 务 管理 、 元 数据 管理 、 存 储 管理 、 维 护 数据 安全 性 及 完整 性 。 由 于 多 媒体 数据 库 
管理 系统 面 对 结 构 化 的 和 非 结构 化 的 数据 ， 处 理 某 些 数据 类 型 ( 如 音频 、 视 频 等 ) 非常 困难 ,所 
以 上 述 功 能 会 变 得 很 复杂 。 除了 其 基本 功能 外 , 管理 系统 还 必须 解决 多 媒体 数据 的 实时 处 理 和 同 
步 等 问题 。 


1. 数据 操作 


数据 操作 涉及 很 多 方面 , 查询、 浏览 和 过 滤 数 据 仅仅 是 它 的 基本 功能 。 需 要 更 恰当 的 查询 语 
言 来 实现 数据 操作 ,扩展 SQL 具有 比较 好 的 前 景 。 用 户 除了 可 以 查询 数据 外 ， 还 可 以 实现 数据 
编辑 。 例 如 把 两 个 对 象 合并 成 第 三 个 对 象 ; 把 一 个 对 象 投影 为 一 个 更 小 的 对 象 ; 对 象 可 以 全 部 或 
部 分 地 更 新 。 数 据 操作 是 建立 在 数据 描述 的 基础 上 ， 而 对 于 后 者 已 经 提出 了 多 种 算法 ,其 中 有 些 
算法 已 经 在 一 些 系统 中 实现 。 


2. 事务 管理 


系统 中 的 事务 管理 是 很 重要 的 问题 , 因为 在 多 数 情况 下 , 动画 是 和 多 媒体 对 象 相 关联 的 。 例 
如 , 如 果 更 新 一 幅 图 像 , 它 的 动画 部 分 也 必须 更 新 , 因此 , 这 两 个 操作 必须 作为 一 个 事务 来 执行 。 
和 数据 描述 及 数据 操作 不 同 , 系统 中 的 事务 管理 仍 是 一 个 较 新 的 领域 , 在 维护 事务 性 质 和 保证 数 
据 一 致 性 和 完整 性 上 ， 事 务 管理 主要 使 用 并 发 挖掘 和 恢复 机 制 。 
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3. 元 数据 管理 


对 音频 、 视 频数 据 的 描述 需要 大 量 的 元 数据 。 就 视频 而 言 ， 可 能 需要 多 种 帧 的 信息 ， 这 些 信 
息 通常 保存 在 元 数据 中 。 

元 数据 在 模式 匹配 ( 识别 ) 中 起 着 关键 作用 。 为 对 多 媒体 数据 进行 数据 分 析 ， 必 须 了 解 用 户 
想 要 查找 的 内 容 。 例 如 ,在 视频 剪辑 中 ,为 了 识别 多 种 模式 ,就 必须 事先 存储 一 些 模式 才能 使 模 
式 识别 顺利 进行 ， 这 些 模 式 信息 以 元 数据 的 形式 出 现 。 

互联 网 技术 的 快速 发 展 使 元 数据 管理 变 得 更 加 复杂 ， 也 使 得 元 数据 管理 更 富有 挑战 性 。 


4. 存储 管理 


存储 管理 主要 包括 设计 和 开发 适合 多 媒体 需要 的 、 特 殊 的 索引 方法 和 存 取 策略 。 虽 然 基于 内 
容 的 数据 存 取 在 多 媒体 应 用 中 占有 非常 重要 的 地 位 , 但 现在 还 没有 一 种 高 效 的 基于 内 容 的 多 媒体 
数据 存放 方法 。 存 储 管理 的 另 一 个 问题 是 数据 缓冲 问题 ,需要 提高 多 媒体 数据 在 高 速 缓冲 中 的 命 
中 率 。 与 结构 化 数据 相 比 ， 需 要 研究 多 媒体 数据 在 使 用 高 速 缓冲 时 的 特殊 性 和 特殊 算法 。 此 外 ， 
存储 技术 还 需要 具有 集成 不 同类 型 数据 的 能 力 , 例如 , 一 个 多 媒体 数据 库 系 统 可 以 包含 视频 、 音 
频 和 文本 数据 , 不 应 仅仅 由 一 种 数据 类 型 构成 ， 这 些 不 同 数据 类 型 还 涉及 同步 问题 ， 需 要 有 恰当 
的 存储 机 制 来 实现 异 构 数据 的 连续 存 取 。 


5. 保证 数据 的 完整 性 和 安全 性 


数据 完整 性 包括 支持 数据 质量 、 完 整 性 约束 处 理 、 并 发 挖掘 、 多 用 户 数据 更 新 、 数 据 恢 复 以 
及 数据 的 准确 性 等 内 容 。 目 前 ， 实 现 完整 性 约束 还 有 很 多 困难 。 

安全 机 制 包括 支持 存 取 权 限 和 授权 等 功能 。 例 如 ， 针 对 视频 数据 ,， 存 取 控 制 规则 应 该 于 整个 
视频 和 剪 辑 还 是 单个 的 视频 帧 。 


6. 其 他 功能 


多 媒体 数据 库 管理 系统 的 其 他 功能 包括 服务 质量 ( 实时 处 理 和 用 户 接口 管理 等 ) 例如 , 在 
某 些 情况 下 ， 可 能 需要 连续 显示 数据 ; 有 时 又 需要 支持 服务 中 断 容 错 ; 为 有 效 地 实现 多 媒体 数据 
的 输入 和 输出 ， 必 须 提供 恰当 的 多 媒体 数据 接口 等 。 


16.2 文本 挖掘 


文本 数据 不 同 于 关系 数据 。 在 大 多 数 情况 下 , 文本 数据 是 非 结构 化 的 ， 有 些 情况 下 它 是 半 结 
构 化 的 。 例 如 ， 一 篇 文章 是 半 结 构 化 的 ， 文 章 有 标题 、 作 者 、 摘 要 和 段落 。 段 落 是 非 结 构 化 的 ， 
而 其 格式 是 结构 化 的 。 

经 过 数 十 年 的 发 展 , 信息 检索 系统 和 文本 处 理 系 统 有 了 长 足 发 展 。 例如 ,只 要 根据 给 定 的 属 
性 值 和 关键 字 就 可 以 检索 出 文档 ， 一 些 文本 处 理 系统 还 可 以 检索 出 文本 之 间 的 关联 关系 。 

文本 挖 据 是 从 非 结构 化 的 文本 中 发 现 潜在 的 概念 以 及 概念 间 的 相互 关系 , 它 从 大 型 文本 数据 
库 提取 尚未 被 人 们 所 认识 到 的 模式 或 关联 。 有 的 信息 检索 和 文本 处 理 系统 可 以 发 现 字 词 和 段落 之 
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间 的 关联 关系 ， 因 此 也 可 以 看 成 是 文本 挖 据 系统 。 

很 多 数据 挖掘 的 工具 和 技术 都 是 针对 关系 数据 库 的 , 针对 文本 数据 库 的 挖掘 工具 较 少 , 因此 
当前 的 数据 挖掘 工具 不 能 直接 应 用 于 文本 数据 。 

挖掘 非 结 构 化 数据 的 方法 如 下 : 

(1) 使 用 特征 标记 技术 从 非 结 构 化 的 数据 库 提取 数据 和 元 数据 ， 并 把 提取 的 数据 存 入 结构 
化 的 数据 库 中 。 应 用 现 有 的 数据 挖掘 工具 在 结构 化 数据 库 中 进行 挖掘 ， 如 图 16.4 所 示 。 


数据 挖 据 工 具 





























结构 化 数据 


| 2 


图 16.4 转换 为 结构 化 后 挖掘 
(2 ) 将 数据 挖掘 工具 和 信息 检索 工具 集成 在 一 起 ， 目 的 是 开发 适合 非 结 构 化 数据 库 的 数据 


挖 据 工 具 ， 如 图 16.5 所 示 。 
数据 挖 握 工 具 
信息 检索 系统 
















图 16.5 增强 的 信息 检索 系统 
(3 ) 开发 直接 应 用 于 非 结构 化 数据 库 的 数据 挖掘 工具 ， 如 图 16.6 所 示 。 


数据 挖掘 工具 





图 16.6 非 结构 化 数据 的 直接 挖掘 
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把 文本 数据 转换 并 存 入 关系 数据 库 时 ,必须 防止 关键 信息 的 丢失 。 对 转换 后 的 数据 库 进行 挖 
掘 前 , 需 生成 数据 仓库 。 这 个 数据 仓库 的 实质 是 关系 数据 库 , 数据 来 源 于 文本 数据 中 的 重要 数据 。 
也 就 是 说 ， 必 须 有 一 个 转换 器 ， 输 入 数据 是 文本 集 ， 输 出 是 包含 文本 中 关键 字 的 表 。 

挖掘 文本 数据 库 的 方法 有 两 类 : 基于 关键 字 的 关联 分 析 和 文本 分 类 分 析 。 


16.2.1 基于 关键 字 的 关联 分 析 


首先 收集 经 常 一 起 使 用 的 关键 词 或 词汇 , 然后 找 出 其 关联 或 相互 关系 。 与 文本 数据 库 大 多 数 
数据 分 析 和 搜索 引擎 中 的 方法 一 样 ， 关联 分 析 首 先 要 对 文本 数据 进行 分 析 、 词 根 处 理 ( 即 词根 还 
原 ， 一 个 词 的 多 种 变形 视 为 一 个 词 ， 如 do、done、doing、does、did 均 视 为 一 个 词 )， 去 除 停 用 
词 (对 文章 词义 分 析 无 意义 的 词 ,主要 是 英文 中 介词 、 冠 词 及 中 文中 的 虚词 , 如 in、the、of 等 )， 
然后 调用 关联 关系 挖掘 算法 。 在 文本 数据 库 中 , 把 每 个 文档 作为 一 个 事务 ,文档 中 的 关键 词组 可 
视 为 事务 中 的 一 组 事务 项 , 这 样 文档 数 据 库 关键 字 关 联 规则 挖掘 的 问题 就 转化 为 事务 数据 库 中 项 
集 的 关联 规则 挖掘 问题 。 


16.2.2 文档 分 类 分 析 


文档 分 类 分 析 是 一 种 重要 的 文本 挖 据 方 法 。 通过 对 文档 分 类 分 析 , 把 大 量 的 联机 文档 自动 分 
类 组 织 , 便于 对 文档 的 检索 和 分 析 。 其 过 程 通常 包括 如 下 几 个 主要 阶段 : 文本 预 处 理 、 文 档 的 表 
示 、 维 数 约 简 、 分 类 器 的 学 习 、 分 类 器 的 测试 以 及 性 能 评价 。 这 个 过 程 是 一 个 反 反复 复 , 不 断 调 
整 和 反馈 的 过 程 。 有 些 情况 下 为 了 研究 的 需要 研究 人 员 会 自己 建立 文档 集 , 更 多 的 情况 是 使 用 国 
际 上 流行 的 、 已 经 建立 好 的 权威 的 文档 集 。 


1. 文档 预 处 理 


在 文本 分 类 中 ,训练 集 的 选择 至 关 重 要 , 选择 的 原则 是 国内 外 使 用 广泛 、 权 威 和 规范 的 语 料 
库 , 这 样 使 得 分 类 结果 具有 可 比 性 ,同时 也 便于 认真 细致 地 分 析 结 果 和 算法 的 优 劣 。 在 英文 语 料 
库 中 ,已 经 有 受到 国内 外 认可 和 广泛 使 用 的 路 透 社 语料库 ( Reuters-21578、RCV1 和 RCV2 )、TREC 
文档 集 、20NewsGroups 和 OHSUMED ) 等 文档 集 。 而 对 于 中 文 语料库 ， 现 有 的 语料库 有 复旦 大 
学 中 文 文本 分 类 语料库 )、 北 京 大 学 的 Web 测试 集 等 。 这 些 文档 集 或 多 或 少 存在 一 些 缺陷 : 有 些 
存储 格式 不 尽 相同 ,一 般 不 能 直接 使 用 ; 有 些 文档 可 能 不 完整 ， 存 在 一 些 不 规范 字符 ; 有 些 文档 
集 存 在 不 少 的 重复 文档 ; 有 些 文档 集中 的 文档 直接 从 网 上 下 载 , 内 容 复 杂 , 格式 不 规范 ,并 且 编 
码 格式 多 样 。 这 些 问题 严重 影响 文本 分 类 系统 后 续 的 工作 以 及 分 类 性 能 , 所 以 必须 进行 一 些 前 期 
的 数据 预 处 理工 作 , 去 除 文档 集中 的 噪音 信息 、 将 其 内 容 规 范 化 ,使 得 文档 符合 分 类 模型 的 输入 
要 求 。 

(1 ) 去 除 格 式 标记 。 

文档 中 的 格式 标记 去 除 是 指 去 除 语料库 中 的 一 些 格式 , 提取 文档 里 的 部 分 内 容 , 转换 为 文本 
分 类 系统 需要 处 理 的 格式 和 内 容 。 例 如 , 一 般 只 关心 文档 的 标题 、 正 文 和 超 链接 描述 ， 处 理 时 就 
可 以 通过 <TITLE > 、<BODY > 和 <A> 等 标签 提取 相应 文档 内 容 。 

(2 ) 去 除 停 用 词 和 词 干 化 。 
停 用 词 是 指 语言 中 的 功能 词 , 这 些 词 在 文档 中 出 现 次 数 很 多 而 本 身 没有 实际 意义 , 中 文中 一 般 
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称 为 虚词 ， 英 文中 为 冠 词 、 代 名 词 、 助 动词 、 介 系 词 和 连接 词 等 。 语 料 库 中 出 现 频率 很 低 (一般 为 
1~3 次 ) 的 稀有 词 ， 也 可 以 考虑 去 除 ， 它 们 的 数量 通常 很 多 ， 计 算 机 难以 处 理 ， 一 般 需 要 去 除 。 

词 干 化 主要 是 指 去 除 英文 中 的 前 缀 、 后 级 、 保 留 单 词 中 的 词 干部 分 。 英文 单词 常 由 前 级、 词 
根 、 后 缀 等 部 分 组 成 ， 在 句子 中 ,单词 还 有 性 、 数 、 格 以 及 引起 的 词 形变 化 ， 如 write 、writes、 
wrote 和 writing 等 ， 这 几 个 单词 就 可 以 认为 是 表述 同一 个 概念 的 。 经 过 词 干 化 处 理 后 ,就 可 以 提 
取出 代表 这 四 个 单词 的 共同 词 干 : write。 这 样 处 理 的 目的 也 是 便于 计算 机 处 理 , 减少 文本 处 理 中 
的 特征 维 数 。 

词 干 化 处 理 常 采用 自动 机 的 规则 方法 , 即将 词 形变 化 的 规律 总 结 成 规则 , 然后 通过 自动 机 的 
方法 对 词 形 进行 转换 , 转换 过 程 当中 可 使 用 或 者 不 使 用 词典 。 目 前 使 用 最 广泛 的 词 干 化 处 理 算法 
是 Martin Porter 提出 的 Porter Stemmer 算法 。 

(3 ) 中 文 分 词 。 

分 词 是 中 文 、 日 文 等 亚洲 语言 的 处 理 中 遇 到 的 特殊 问题 。 中 文 文本 中 词 与 词 之 间 没 有 明确 的 
分 隔 标记 ， 而 是 连续 的 汉字 串 , 因此 , 将 汉字 串 切 分 为 正确 的 词 串 的 汉语 分 词 问题 无 疑 是 实现 中 
文 信息 处 理 的 各 项 任务 的 首要 问题 ， 也 是 中 文 信息 处 理 的 基础 。 汉 字 的 简体 /繁体 转换 、 信 息 检 
索 和 信息 摘录 、 自 然 语言 理解 、 文 本 分 类 、 机 器 翻译 、 文 本 校对 等 中 文 信息 处 理 系 统 同样 首先 需 
要 将 分 词 作为 最 基本 的 模块 。 

中 文 分 词 方法 大 致 有 三 类 : 
。 ”机 械 分 词 方法 : 基于 分 词 词 表 , 按照 字符 串 匹 配 的 原理 进行 。 根 据 切 字 串 的 方向 , 模式 
匹配 又 分 为 正 向 匹配 法 和 逆向 匹配 法 。 根 据 每 次 匹配 时 优先 考虑 长 词 还 是 优先 考虑 短 

词 ， 此 方法 又 可 分 为 最 大 匹配 法 和 最 小 匹配 法 。 

。 ”基于 统计 分 词 方法 : 先 切 分 出 与 词 表 匹 配 的 所 有 可 能 的 词 ,这 种 切 分 方法 称 为 “全 切 分 ”， 
然后 运用 统计 语言 模型 和 决策 算法 决定 最 优 的 切 分 结果 。 
。 ”基于 规则 和 基于 统计 相 结合 的 方法 : 首先 运用 最 大 匹配 法 作为 一 种 初步 切 分 ; 接着 对 切 

分 的 边界 处 进行 歧义 探测 , 发 现 歧义 ; 再 运用 统计 和 规则 相 结合 的 方法 来 判别 正确 的 切 

分 , 运用 不 同 的 规则 解决 人 名 、 地 名 、 机 构 名 识别 , 运用 词法 结构 规则 生成 复合 词 和 衍 

生词 。 


2. 文档 的 表示 


对 文档 进行 预 处 理 后 , 需要 根据 文本 分 类 模型 对 文档 进行 相应 的 特征 表示 。 一 般 文档 的 特征 
项 应 具有 以 下 特点 : 特征 项 是 能 够 对 文档 进行 充分 表示 的 语言 单位 ; 文档 在 特征 项 集合 上 的 分 布 
具有 较为 明显 的 统计 规律 ; 特征 项 分 离 比较 容易 实现 ， 计 算 复杂 度 不 太 大 。 在 文本 分 类 中 , 按照 
文档 特征 的 粒度 来 划分 ， 常 用 的 特征 单位 有 词 、 词 组 、N-Gram (N 元 ) 项 和 概念 等 。 
(1) 词 。 
在 信息 检索 领域 ， 词 是 使 用 最 为 普遍 的 文档 特征 。 英 文 等 西方 语言 中 的 词 较 易 获 取 ， 而 对 于 
东方 语言 ， 则 需要 分 词 来 得 到 词 。 对 于 中 文 等 语言 ， 也 可 以 采用 单个 字 来 表示 文档 特征 。 
(2 ) N-gram。 
N-gram 项 一 般 是 由 相 邻 的 Y 个 词组 成 , 经 常 在 统计 语言 模型 中 使 用 。 使 用 较 多 的 是 Unigram 
(一 元 )、Bigram (二 元 )、Trigram ( 三 元 )。 对 于 中 文 来 说 ，N-gram 项 一 般 由 相 邻 的 字 构成 ， 例 
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如 : 从 “江西 财经 大 学 ”中 提取 2-gram 项 ， 可 以 得 到 “江西 ”“ 西 财 " “经 大 ”和 “大 学 ”4 个 
2-gram 项 。 对 于 英文 来 说 ，N-gram 项 既 可 以 由 相 邻 单词 构成 ， 也 可 以 由 相 邻 字母 构成 。 

N-gram 项 作为 文档 的 特征 ， 可 以 避免 庞大 的 词典 和 复杂 的 分 词 程 序 。 一 般 情 况 下 ， 使 用 同 
样 的 分 类 方法 ， 基 于 词 的 文本 分 类 效果 并 不 比 基 于 N-gram 项 的 好 。 在 特征 数目 较 小 的 情况 下 ， 
基于 N-gram 项 的 文本 分 类 效果 甚至 优 于 基于 词 的 。 但 是 , N-gram 项 的 语义 显然 没有 真正 的 词 那 
么 明显 ， 而 且 随 着 入 的 增 大 ，N-gram 项 的 数目 会 呈 指数 增长 ， 使 算法 的 时 间 和 空间 消耗 大 大 增 
加 ,所 以 六 的 取 值 一 般 不 宜 过 大 ， 目 前 取 值 一 般 不 超过 3。 

(3 ) 词组 。 

词 的 文档 表示 法 的 一 个 显著 缺点 是 原始 文档 中 的 大 量 语义 信息 被 丢失 了 。 例 如 段落 、 句 子 、 
词 序 和 词性 等 都 被 忽略 了 。 结果 是 虽然 满足 了 计算 机 学 习 算法 所 需要 的 连续 性 , 却 打 乱 了 人 们 正 
常 的 思维 连续 性 。 词 组 表示 法 的 一 个 目标 就 是 为 了 尽量 挽回 一 些 词语 表示 所 滤 去 的 有 用 信息 。 但 
词组 表示 法 的 表达 能 力 并 明显 优 于 词 的 表示 , 因为 词组 降低 了 特征 向 量 的 统计 质量 , 使 得 特征 向 
量变 得 更 加 稀疏 ， 让 机 器 学 习 算 法 难以 从 中 提取 用 于 分 类 的 统计 特性 。 

(4 ) 概念 。 

概念 相 比 词语 而 言 ， 具 有 更 高 的 抽象 性 。 在 文本 分 类 中 ,存在 着 一 词 多 义 和 多 词 一 义 现象 。 
此 时 , 采用 概念 作为 文本 特征 有 诸多 优点 : 首先 大 大 降低 分 类 空间 的 维 数 ， 从 而 节省 了 分 类 器 的 
训练 时 间 和 分 类 期 间 用 于 相似 比较 的 时 间 , 时 间 效 率 大 大 提高 ; 其 次 , 可 以 避免 一 个 重要 的 分 类 
特征 因为 采用 关键 词 的 分 散 而 削弱 其 分 类 的 权重 ; 再 次 , 可 以 避免 只 采用 关键 词 作为 特征 所 产生 
的 特征 歧义 , 即 虽然 都 采用 了 同一 个 关键 词 , 但 所 代表 的 意义 完全 不 同 , 从 而 提高 分 类 的 准确 性 。 
最 后 ,基于 关键 词 的 分 类 假设 关键 词 之 间 是 独立 的 , 但 关键 词 之 间 不 但 存在 同 义 、 多 义 关系 , 还 
存在 相关 关系 、 相 斥 关系 ; 将 关键 词 映射 到 概念 空间 可 以 在 一 定 程度 上 消除 这 种 相关 性 。 

定义 了 文档 的 特征 后 , 就 可 以 采用 适当 的 文档 表示 模型 进行 表示 。 文档 的 表示 模型 是 文本 分 
类 的 基础 , 决定 着 文档 表示 为 计算 机 容易 存储 格式 的 方法 , 会 对 分 类 任务 产生 较 大 的 影响 。 为 了 
处 理 的 方便 , 通常 的 文本 表示 方法 大 都 采用 贝 叶 斯 假设 , 即 把 组 成 文本 的 字 或 词 对 确定 文本 类 别 
的 作用 认为 是 相互 独立 的 ， 这 样 可 以 直接 用 文档 中 出 现 的 字 或 词 的 集合 代替 文档 。 

文档 表示 模型 有 4 个 传统 的 模型 ， 即 布尔 模型 、 向 量 空间 模型 、 概 率 模 型 和 逻辑 模型 ， 其 中 
最 为 著名 的 就 是 向 量 空间 模型 。 

(1) 向 量 空间 模型 。 

向 量 空 间 模型 也 称 词 袋 表示 方法 。 一 个 词 袋 是 一 个 集合 , 它 允 许 元 素 的 重复 ， 这 样 不 但 考虑 
词 出 现 与 否 ， 而 且 考虑 了 词 出 现 的 频率 。 

向 量 空间 模型 的 定义 如 下 。 

语料库 中 所 有 的 词组 成 词 表 ， 一 篇 文档 表示 为 向 量 空间 中 的 一 个 向 量 ， 也 即 一 个 “袋子 ”: 

pid 3 Ga) = 84), 1d), (1d) ERY 
其 中 ，#f(i,q) 表示 词 出 现在 文档 4 中 的 频率 ; 为 词 表 中 的 一 个 词 ; 为 词 表 的 大 小 。 这 样 ， 
一 个 文档 就 映射 到 一 个 N 维 的 空间 , 通常 是 一 个 很 大 的 数 ， 而 向 量 中 很 多 元 素 为 0, 即 “ 数 据 
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(2 ) 特征 权重 表示 方法 。 

在 使 用 向 量 空间 模型 表示 文档 后 , 一 般 出 于 某 种 考虑 , 通过 提高 或 降低 某 些 特征 的 影响 来 进 
行 特征 权重 的 调整 。 权 重 的 调整 都 基于 以 下 两 种 考虑 : 一 个 词 在 某 篇 文档 中 次 数 越 多 ， 则 对 识别 
文档 的 贡献 越 大 ;一 个 词 在 不 同文 档 中 出 现 的 次 数 越 多 ， 则 它 区 分 不 同 分 档 的 能 力 越 弱 。 

@ 布尔 权重 。 

布尔 权重 是 最 简单 的 一 种 权重 表示 方式 , 也 称 二 值 权 值 或 二 元 权重 。 如 果 文 档 中 出 现 了 该 词 ， 
那么 在 文档 向 量 中 该 词 所 在 位 置 的 值 为 1， 否则 为 0。 








二 如 果 态 >0 
ay = 
0, 否则 
式 中 : 坊 为 词 7 在 文档 i 中 的 出 现 频率 。 

@ 词 频 权重 。 

用 词 的 频率 作为 权重 是 一 种 简单 常见 的 表示 方法 ， 它 直观 且 容 易 理解 。 


y= 


其 基本 思想 是 某 个 特征 在 文档 中 出 现 的 次 数 越 多 , 它 就 越 重 要 , 但 是 文档 一 个 高 频 词 并 不 一 

@ ttidf 权重 。 

tfidf 权重 是 一 种 使 用 非常 广泛 的 权重 表示 方法 ， 它 考虑 了 词 的 文档 频率 信息 。tf-idf 权重 以 
词 的 逆向 文档 频数 对 词 频 作 加 权 处 理 , 其 基本 思想 是 词 在 文档 中 出 现 的 次 数 越 多 就 越 重要 ; 同时 
也 认为 词 的 文档 频率 越 低 ， 该 词 的 重要 性 就 越 低 。 





ay = fy xlog 之 
J 


式 中 : 为 文档 集 的 文档 总 数 ; mj 为 词 的 文档 频数 。 
当 N=m 时 ， 上 述 权 重 为 0, 在 小 数据 集 上 经 常会 发 生 这 种 情况 ,为 防止 出 现 这 种 情况 , 一 般 
要 做 平滑 处 理 


ay =log(ty +0. Dpe| 2 4 


0 


@ tt 权重 。 
tfidf 权重 没有 考虑 文档 长 度 对 词 权重 的 影响 。 为 消除 这 种 影响 , tfe 权重 对 tt-idf 权重 作 “ 归 
一 化 ”处 理 ， 使 每 个 文本 的 特征 权 向 量 都 变 成 长 度 为 1 的 单位 向 量 


hy x 加 
ES 


px we 
pl 7 





ay = 
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式 中 : M 为 文档 集 的 词 总 数 。 
@ ltc 权重 。 
ltc 权重 是 tfidf 权重 的 一 种 变形 形式 ， 其 表达 式 为 





log(f; +1.0)x we 
Wl 
3 
Sl veo, +1.0)x ve 二 ] 
P=1 


log(tf; +1.0)x ol 十 oj 
ns 


OO 


Soo, +1 Ce "| 
i 


p=1 





@ 炉 权 重 。 
炉 加 权 法 是 基于 信息 论 的 加 权 算 法 ， 相 对 较为 复杂 ， 其 表达 形式 为 


二 1 六 如 jog| 息 
ay = log(ty “ohh oe | 最 | 二 


1 | se]| ai : 度 或 六 。 


log(N) p31| np np 





其 中 : 


3. 常用 文本 分 类 模型 


文本 分 类 器 是 文本 分 类 系统 中 的 核心 部 分 。 目 前 , 许多 统计 学 习 、 机 器 学 习 和 算法 都 在 文本 
分 类 中 得 到 了 广泛 的 应 用 , 基于 统计 学 习 、 机 器 学 习 的 文本 分 类 技术 已 经 成 为 主流 技术 。 现 已 提 
出 了 许多 文本 分 类 算法 ， 常 见 的 有 : 最 小 二 乘 回 归 模 型 、k- 近 邻 、 决 策 树 、 朴 素 贝 叶 斯 、 神 经 网 
络 、 支 持 向 量 机 、 最 大 焙 模 型 、Rocchio 分 类 器 、 关 联 规则 和 组 合 分 类 器 等 。 这 些 算法 的 具体 原 
理 可 参见 相关 参考 书 或 本 书 的 相关 章节 。 


4. 文本 分 类 器 学 习 、 测 试 和 评价 


文本 分 类 器 建立 以 后 ， 需 要 进行 分 类 器 的 学 习 训练 过 程 ， 训 练 分 类 器 的 一 些 参数 ， 然 后 对 这 

些 参数 进行 微调 , 最 后 评价 它 的 分 类 。 分 类 器 性 能 的 评估 与 比较 是 一 个 比较 复杂 的 问题 ,目前 尚 

未 得 到 很 好 的 解决 。 影 响 文本 分 类 器 实际 分 类 效果 的 因素 有 很 多 , 如 语料库 的 选择 、 文 档 的 表示 、 

性 能 评估 指标 的 确定 、 实 验 数 据 的 分 析 与 处 理 等 。 一 般 做 法 是 : 选用 使 用 广泛 的 、 规 范 的 和 权威 

的 语 实 料 库 ; 选用 适当 的 评价 指标 ， 目 前 常用 的 有 精度 、 召 回 率 和 Fl 值 等 ; 对 实验 结果 进行 统 
计 分 析 ， 如 工 检验 等 。 
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(1 ) 文本 分 类 器 的 学 习 和 测试 。 

一 般 情 况 下 , 把 原始 的 语料库 分 为 训练 集 和 测试 集 ， 它 们 的 大 小 并 不 一 定 相等 。 测 试 集 是 为 
了 微调 分 类 器 的 参数 ， 使 分 类 器 的 性 能 较 好 。 测 试 有 封闭 测试 和 开放 测试 。 封 闭 测试 时 ， 测 试 集 
是 训练 集 的 一 部 分 ; 开放 测试 时 ， 测 试 集 与 训练 集 是 独立 同 分 布 的 两 个 数据 集 。 因 为 封闭 测试 不 
具有 可 比 性 ， 文 本 分 类 中 主要 采 有 开放 测试 。 对 于 语料库 划分 的 问题 ， 比 较 权威 的 是 训练 集 为 
70%、 测 试 集 为 30%。 有 的 把 上 述 方法 所 述 的 训练 集 再 分 为 两 部 分 ， 即 语料库 分 为 训练 集 、 验 证 
集 和 测试 集 三 部 分 , 验证 集 的 目的 是 更 加 有 效 地 微调 参数 和 优化 参数 , 这 种 方法 有 时 也 称 保持 法 ， 
也 有 的 使 用 大 折 交叉 验证 法 。 因 为 计算 机 性 能 限制 ， 在 大 规模 文档 集 上 经 常 使 用 这 种 方法 。 

(2 ) 国 值 策略 。 

在 测试 一 篇 新 文档 时 ， 需 要 根据 分 类 器 给 它 的 评分 确定 属于 哪些 类 别 以 进行 性 能 评价 。 因 为 
类 别 之 间 并 不 是 相互 独立 的 ,一 篇 文档 可 能 属于 这 个 类 ,也 可 能 属于 别 的 类 。 因 此 ， 需 要 对 每 个 
类 别 确定 辣 值 , 当 文档 大 于 某 一 类 别 的 羡 值 时 , 就 将 文档 划分 到 该 类 别 中 。 确定 这 个 靖 值 的 过 程 ， 
称 为 文本 分 类 中 的 靖 值 策略 。 阔 值 策略 的 好 坏 会 影响 分 类 器 的 性 能 评价 , 目前 在 理论 上 没有 一 个 
好 的 解决 方法 ,大 多 数 是 依靠 实验 和 经 验 选取 合适 的 策略 。 常 用 的 阔 值 策略 有 排序 阔 值 法 、 比 例 
阔 值 法 和 局 部 最 优 评分 法 等 。 

(3 ) 评价 指标 。 

在 文本 分 类 器 完成 了 训练 和 测试 后 , 一 个 很 重要 的 问题 就 是 进行 分 类 性 能 评估 。 要 选择 合适 
的 评价 指标 评估 一 个 算法 的 优 劣 ， 并 且 和 算法 进行 性 能 比较 。 

设 a: 正 例 测试 文档 被 正确 分 类 为 属于 该 类 的 数量 ; 

5: 负 例 测 试 文档 被 错误 分 类 为 属于 该 类 的 数量 ; 

c: 正 例 测试 文档 被 错误 分 类 为 不 属于 该 类 的 数量 ; 

d: 负 例 测 试 文档 被 正确 分 类 为 不 属于 该 类 的 数量 。 

可 以 用 以 下 指标 对 分 类 效果 进行 评价 。 

精确 率 : 它 是 分 类 系统 结果 与 人 工分 类 结果 一 致 的 文档 在 被 分 文档 中 的 比率 








Ss a 
Precision = 一 一 一 
a+b 


召回 率 : 它 是 指 人 工分 类 结果 应 有 的 文档 与 分 类 系统 一 致 的 文档 所 占 的 比率 


Recal= 一 





Q 二 C 





其 他 定义 
fallout = < 
b+d 


a+b 


accuracy = 一 一 一 一 
a+D+c+d 


另外 ， 常 用 的 有 F1 测试 值 ， 它 综合 考虑 精确 率 和 召回 率 ， 也 称 为 综合 分 类 率 ， 计 算 公式 如 下 
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Fl= 2xPrecision x Recall 
Precision + Recall 


为 了 综合 多 个 类 别 的 分 类 情况 ， 根 据 计算 方式 的 不 同 ，F1 值 分 为 微 平均 Fl 值 和 宏 平 均 Fl 
值 。 前 者 的 计算 方式 是 首先 需要 在 整个 文档 集 内 分 别 计算 精确 率 和 召回 率 的 值 ， 然 后 根据 Fl 的 
计算 公式 计算 微 平均 Fl 值 。 后 者 则 是 先 计 算 每 个 类 别 的 Fl 值 , 然后 计算 它们 的 平均 值 , 即 得 宏 
平均 Fl 值 。 很 明显 微 平均 Fl 值 平等 考虑 每 一 个 文档 , 因此 它 的 值 将 主要 受 常见 类 的 影响 ; 而 宏 
平均 Fl 值 平等 对 待 每 一 个 类 别 ， 因 此 它 的 得 分 主要 受 稀 有 类 的 影响 。 

Break-even 点 也 是 一 种 常用 的 评价 指标 ， 对 分 类 系统 来 说 ， 精 确 率 和 召回 率 是 相互 相等 的 ， 
提高 其 中 任何 一 个 都 会 引起 另外 一 个 指标 的 下 降 ， 一 种 做 法 是 选取 两 者 相等 值 来 表征 系统 性 能 ， 
这 个 值 称 作 平 衡 点 BEP 值 。 当 然 ， 有 时 通过 测试 不 能 得 到 两 者 相等 的 值 ， 这 时 取 它 们 最 接近 的 
平均 值 作 为 BEP 值 ， 称 为 插值 BEP。 


16.3 图像 挖掘 


图 像 内 容 包括 地 图 、 地 质 结构 、 生 物 结构 等 。 图 像 处 理 涉及 的 研究 领域 有 : 检测 模式 的 异常 

分 析 、 基 于 内 容 图 像 检索 和 模式 匹配 等 ,其 研究 工作 已 有 很 长 历史 , 研究 成 果 已 经 应 用 到 了 许多 
领域 ,如 美国 航空 航天 局 对 空间 图 像 和 地 质 图像 的 挖掘, 在 医疗 图 像 上 的 挖掘, 在 台风 图 像 上 的 
挖掘 等 。 
图 像 检索 是 指 图 像 数据 相似 检索 , 主要 考虑 两 种 多 媒体 标 引 和 检索 系统 : 基于 描述 的 检索 
系统 ,主要 是 在 图 像 描述 上 建立 标 引 和 执行 对 象 检索 ， 如 关键 字 、 标 题 、 尺 十 和 创建 时 间 等 ; @ 
基于 内 容 的 检索 系统 ， 它 支持 基于 图 像 内 容 的 检索 ， 如 颜色 构成 、 纹 理 、 形 状 、 对 象 和 对 象 之 间 
的 空间 关系 等 。 前 者 手工 操作 十 分 困难 ， 自 动 完成 的 检索 结果 通常 较 差 ; 而 后 者 使 用 视觉 的 特征 
标 引 图 像 并 按 特 征 相似 度 检索 对 象 , 可 以 满足 更 多 的 系统 需要 。 所 以 越 来 越 多 的 系统 采用 后 者 图 
像 检索 技术 。 

在 基于 内 容 的 图 像 检索 系统 中 , 通常 有 两 种 查询 方式 : 基于 图 像样 本 的 查询 和 基于 图 像 特 征 
描述 的 查询 。 基 于 图 像样 本 的 查询 是 指 找 出 所 有 与 给 定 图 像样 本 相似 的 图 像 。 具 体 过 程 是 : 通过 
索引 从 图 像 数据 库 中 提取 特征 向 量 , 与 样本 中 提取 的 特征 向 量 进 行 比较 , 可 以 检索 出 与 样本 图 像 
相似 的 图 像 。 图 像 特征 描述 查询 要 求 给 出 查询 图 像 的 特征 描述 , 系统 把 特征 描述 转换 为 特征 向 量 ， 
在 数据 库 中 检索 与 该 特征 向 量 相 匹配 的 图 像 。 如 可 以 分 别 根据 颜色 、 纹 理 或 形状 查询 ， 也 可 以 根 
据 两 个 或 三 个 参数 特征 进行 综合 查询 。 

图 像 处 理 主要 是 检测 异常 模式 和 图 像 检索 ; 图 像 挖掘 是 发 现 所 有 有 异常 的 模式 。 因 此 , 图 像 挖 
掘 可 以 理解 为 从 大 型 图 像 数据 库 中 寻找 不 同 图 像 之 问 的 关联 关系 。 

通过 大 量 的 研究 可 以 发 现 直接 对 图 像 挖 气 也 是 可 能 的 ,问题 是 确定 何 种 挖掘 结果 最 合适 。 图 
像 的 挖 气 结 果 可 以 是 关联 规则 、 聚 类 图 像 、 分 类 图 像 ， 也 可 以 是 检测 异常 模式 。 例 如 ,通过 开发 
生成 图 像 之 间 规则 的 模板 , 再 应 用 数据 挖掘 工具 从 中 发 现 异常 模式 , 即 可 完成 图 像 中 是 否 存在 异 
常事 物 的 判断 过 程 。 

检测 异常 模式 并 不 是 图 像 挖掘 的 结果 , 而 仅仅 是 开始 。 图 像 挖 掘 需要 研究 现 有 数据 技术 能 否 
应 用 在 图 像 的 分 类 、 聚 类 和 关联 规则 上 。 
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16.4 ”视频 挖掘 


挖掘 视频 数据 比 挖掘 图 像 数据 更 困难 、 更 复杂 。 视 频 可 以 看 作 是 移动 的 图 像 或 动画 。 视 频数 
据 中 包含 丰富 的 内 容 线索 。 除 图 像 具有 视觉 特征 和 空间 特性 外 。 视 频数 据 还 具有 时 间 特 性 、 视 频 
对 象 特 性 、 运 动 特性 等 。 视 频 挖 掘 技术 可 以 广泛 应 用 于 新 闻 视 频 、 监 控 视 频 、 记 录影 片 、 数 字 视 
频 图 书馆 等 信息 挖掘。 例如 ,从 交通 监视 视频 中 分 析出 交通 拥堵 的 趋势 ; 从 连续 的 侦察 图 像 和 视 
频 新 闻 中 分 析出 军队 调动 的 动向 ;对 广告 的 分 析 和 挖掘 ;从 国际 视频 新 闻 中 挖掘 出 事件 的 关联 、 
危机 和 灾害 事件 ( 水灾、 火灾 、 疾 病 等 ) 的 发 生 模式 等 。 

很 多 研究 领域 都 涉及 视频 数据 管理 问题 。 例 如 ， 开 发 视频 数据 库 的 查询 和 检索 技术 , 需要 研 
究 视频 索引 、 查 询 语言 和 优化 策略 等 。 人 们 普遍 认为 , 成 功 的 视频 挖掘 系统 首先 要 有 一 个 成 功 的 
图 像 挖 气 系 统 。 

为 了 实现 视频 数据 库 中 的 模式 匹配 , 用 户 应 该 预先 定义 好 图 像 ， 然后 用 视频 数据 与 这 些 图 像 
进行 匹配 。 可 以 认为 视频 挖掘 就 是 从 大 型 数据 库 中 发 现 视频 事件 的 关联 和 隐 含 模式 , 即 通过 综合 
分 析 视频 数据 的 视听 特性 、 时 间 结构 、 事 件 关系 和 语义 信息 ， 发 现 隐 含 的 、 有 价值 的 、 可 理解 的 
视频 模式 ， 得 出 视频 表示 事件 的 趋向 和 关联 关系 ， 提 高 视频 信息 管理 的 智能 程度 。 

此 外 , 还 可 以 对 视频 结构 进行 分 析 和 挖掘 。 挖 掘 视频 的 结构 模型 ， 称 为 镜头 语法 。 镜 头 语法 
描述 视频 故事 单元 的 构造 模式 , 例如 , 一 段 新 闻 单元 的 构造 模式 可 能 是 播音 主持 人 后 接 说 明 场景 ， 
或 是 播音 主持 人 与 被 采访 对 象 镜头 的 交替 对 话 模 式 等 。 

和 文本 挖掘 、 图 像 挖掘 不 同 , 迄今 为 止 还 没有 真正 意义 上 的 视频 挖掘 研究 成 果 。 鉴 于 视频 数 
据 的 特殊 性 ， 视 频 挖 掘 的 研究 范围 还 很 有 限 ， 下 面 仅 对 几 类 典型 的 挖掘 技术 进行 探讨 。 


16.4.1 ”结构 挖掘 


视频 是 非 结构 化 的 数据 ,提取 视频 结构 是 视频 分 析 、 视 频 索引 、 视 频 存 取 的 基础 。 在 视频 特 
征 提取 时 , 仅 按时 间 顺 序 把 视频 分 割 成 单元 镜头 不 利于 视频 结构 的 组 织 , 所 以 有 必要 挖掘 出 视频 
的 高 层 结构 、 如 场景 、 幕 等 ， 从 中 得 到 视频 镜头 的 结构 语法 和 语义 。 

美国 普 渡 大 学 的 Marzouk 等 人 采用 视频 结构 挖掘 的 方法 开发 了 视频 内 容 结构 和 事件 的 挖 据 
框架 ， 分 别 使 用 镜头 分 类 、 关 键 帧 提取 、 镜 头 分 组 、 组 合并 、 场 景 聚 类 等 方法 把 视频 内 容 组 织 成 
5 级 层次 结构 。 层 的 粒度 大 小 按 帧 、 镜 头 、 组 、 场 景 、 视 频 依次 递增 。 视 频 结 构 的 挖掘 工作 分 三 
步 进行 : (1 ) 组 检测 ; (2 ) 场景 检测 ; (3 ) 场景 聚 类 。 首 先 将 视频 镜头 分 割 成 语言 丰富 的 单元 ， 
将 空间 上 相 邻 、 内 容 上 相似 的 组 归并 为 场景 ,扫描 整个 视频 ,过 滤 掉 相似 的 场景 。 为 实现 镜头 成 
组 , 应 用 特定 的 技术 识别 相似 背景 ,在 时 间 序 列 上 识别 有 关 的 镜头 ,将 时 间或 空间 上 相关 的 镜头 
分 割 为 一 个 组 ,根据 镜 头 特征 ， 采 用 分 类 、 聚 类 挖掘 方法 ， 将 视频 镜头 组 织 成 具有 语言 的 单元 一 
场景 ， 它 是 由 一 系列 相继 的 镜头 组 成 ， 是 在 相同 的 地 点 拍摄 的 ， 具 有 相同 的 视频 内 容 。 


16.4.2 ”运动 挖掘 


运动 是 视频 特有 的 特征 , 包括 对 象 的 运动 和 摄像 机 的 运动 。 特别 是 对 象 运动 信息 尤为 重要 。 视 
频 技术 和 计算 机 视觉 的 快速 发 展 ， 为 运动 特征 的 提取 、 分 析 、 处 理 提供 了 有 力 的 技术 基础 。 利 用 计 
算 机 视觉 方面 的 研究 成 果 可 以 检测 移动 斑点、 预测 班 点 运动 轨迹 、 跟 踪 关 键 部 位 的 运动 等 , 从 中 提 
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取出 对 象 运动 的 特征 , 并 可 进一步 对 运动 模式 进行 包括 移动 对 象 轨迹 索引 、 运动 从 类 、 孤 立 点 检测 、 
关联 分 析 等 数据 挖掘 过 程 , 并 分 析 获 得 的 时 空 数据 特征 , 获得 有 价值 的 知识 。 视 频 运动 挖掘 的 结果 
可 以 应 用 于 交通 调度 、 计 算 机 辅助 身体 健康 ( 理疗 )、 职 业 安全 、 人 机 工程 等 方面 ; 有 利于 改善 体 
育 训练 方法 ， 医 疗 和 诊断 方法 ， 而 且 ， 还 可 以 提高 计算 机 视觉 和 模式 识别 算法 的 性 能 。 


16.4.3 ”趋势 挖掘 


运用 统计 归纳 和 关联 等 方法 , 挖掘 视频 中 事件 发 生 与 时 间 发 生 关联 的 模式 。 根 据 事件 持续 的 
时 间 、 事 件 发 生 间隔 、 事 件 序列 片段 等 参数 和 特征 ,采用 事件 模式 生长 、 频 繁 模 式 等 方法 进行 数 
据 挖 气 , 并 通过 分 析 视频 运动 特征 及 其 随时 间 的 变化 情况 , 从 而 达到 趋势 分 析 和 数据 挖掘 的 目的 。 


16.5 ”音频 挖掘 


目前 , 数据 挖掘 对 象 很 少 涉及 语音 数据 。 这 一 方面 是 由 于 语音 数据 复杂 ,包含 很 多 信息 。 例 
如 音频 中 含 基 频 信息 、 时 长 信息 、 幅 度 信息 、 位 置信 息 以 及 重音 信息 等 。 同 一 个 音节 在 不 同 的 语 
句 会 表现 出 不 同 的 信息 特征 , 不 同 的 语 境 会 使 音节 自身 的 属性 值 发 生变 化 。 另 一 方面 , 语音 数据 
挖掘 的 研究 需要 语音 合成 工作 的 技术 积累 。 由 于 数据 挖掘 技术 对 处 理 对 象 的 要 求 很 高 , 因此 不 能 
处 理 直 接 录制 音节 的 波形 文件 ,必须 对 波形 文件 进行 严格 的 预 处 理 。 例 如 ， 对 录音 波形 进行 音节 
和 音节 标注 ,这 项 工作 需要 大 量 的 人 力 和 物力 资源 ， 需要 强大 的 语音 处 理 能 力 和 积累 。 将 数据 挖 
掘 技术 应 用 于 语音 信号 处 理 可 以 解决 部 分 现 阶段 较 难 解决 的 语音 技术 问题 , 同时 尽 可 能 减少 人 为 
经 验 因素 对 语音 处 理 的 影响 ,完成 对 语音 处 理 从 定性 到 定量 的 转变 。 因 此 ,将 数据 挖掘 方法 应 用 
于 语音 合成 工作 具有 重要 的 意义 和 广阔 的 前 景 。 

由 于 音频 是 像 视频 一 样 的 连续 媒体 类 型 , 音频 信息 的 处 理 和 挖掘 与 视频 信息 的 检索 和 挖掘 相 
似 , 很 难 有 了 明确 的 界限 。 在 音频 数据 挖掘 中 , 可 以 使 用 语音 转换 和 关键 字 抽 取 等 技术 音频 数据 转 
换 为 文本 ， 然 后 挖掘 文本 数据 。 如 图 16.7 所 示 。 也 可 以 使 用 音频 信息 处 理 技术 筛选 出 关键 语句 


并 在 筛选 出 的 音频 数据 上 直接 挖掘。 如 图 16.8 所 示 。 
的 音频 脚本 


图 16.7 挖掘 音频 中 的 文本 信息 图 16.8 直接 音频 挖掘 
总 之 , 音频 挖掘 比 视频 挖掘 难度 更 大 。 现 有 的 音频 挖掘 系统 基本 上 都 是 先 把 音频 数据 转换 成 
文本 数据 ， 然 后 对 文本 数据 进行 挖掘 。 目 前 语音 识别 已 广泛 应 用 于 IVR ( Interactive Voice 
Response， 交 互 式 语 音 应 答 )， 但 IVR 使 用 的 语音 识别 技术 相对 简单 。 许 多 公司 已 经 开发 出 音频 
识别 软件 ， 例 如 IBM 的 人 类 语音 技术 (HLT ) 等 。 目 前 的 音频 挖掘 系统 主要 用 于 音频 检索 ， 比 
较 著 名 的 系统 有 美国 ScanSoft 公司 的 AudioMining 开发 系统 , 它 将 音频 中 的 音频 信息 转换 成 文字 
信息 , 并 对 文字 信息 进行 索引 ,由 于 文字 信息 和 音频 中 原始 音 道 的 时 间 帧 相关 ,通过 用 户 提交 的 
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文字 信息 索引 就 可 以 定位 音频 的 播放 位 置 。 该 软件 包 中 的 AudioMining & XML Speech Indexing 
可 以 根据 音频 和 视频 文件 自动 生成 XML 语音 索引 数据 ， 实 现 网 上 音频 搜索 。 


16.6 ”复合 类 型 数据 的 挖掘 


在 实际 应 用 过 程 中 , 多 媒体 数据 挖 据 的 对 象 是 由 多 种 类 型 的 媒体 组 成 的 复合 体 ,例如 文本 和 
图 像 、 文 本 和 视频 或 文本 、 音 频 和 视频 等 。 如 果 对 多 媒体 数据 进行 挖掘 ， 则 需要 在 两 种 或 多 种 数 
据 类 型 合成 的 基础 上 进行 。 

处 理 复合 类 型 数据 和 处 理 异 构 数据 库 非 常 相似 , 异 构 环境 中 的 数据 库 通 常 由 多 种 类 型 的 数据 
构成 , 可 以 采用 两 种 数据 挖掘 方案 。 图 16.9 是 先 整合 异 构 数据 , 然后 在 集成 视图 上 挖掘 ; 图 16.10 
是 先 分 别 在 各 自 的 数据 集 上 挖掘 ， 然 后 再 整合 数据 挖掘 结果 。 无 论 采 用 哪 种 方案 ， 多 媒体 分 布 式 
处 理 器 都 起 着 很 重要 的 作用 ， 如 果 采 用 先 整合 后 挖掘 的 方案 ， 整 合 须 由 MDP 实现 ; 如 果 采 用 先 
挖掘 的 方案 ， 数 据 挖 掘 器 要 求 扩展 MM-DBMS 的 功能 ， 挖 掘 结果 则 通过 MDP 整合 。 


多 媒体 数据 挖掘 器 
多 媒体 数据 库 集成 视图 




















































整合 挖 气 结 果 














| MP | | ap | | pp | 文本 挖掘 器 | [视频 挖掘 器 音频 挖掘 器 
文本 DBMS 视频 DBMS 音频 DBMS 本 一 一 音频 DBMS 
图 16.9 先 整合 后 挖 气 图 16.10 先 挖 气 后 整合 


由 于 单一 数据 类 型 的 挖 据 工 作 还 有 待 于 进一步 研究 , 因此 , 针对 多 种 数据 类 型 复合 数据 的 挖 
据 工 作 仍 面临 着 很 大 挑战 。 
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17.1 Web 数据 挖掘 技术 概述 


随 着 互联 网 技术 的 进一步 发 展 , 网 上 信息 越 来 越 多 。 目 前 网 上 的 网 页 数量 已 达 上 百 亿 ， 而 且 
正在 以 每 月 近 干 万 的 数量 增长 ， 甚 至 有 人 预言 Web 页 面 的 数量 每 隔 100~120 天 要 翻 一 番 。 

Web 挖掘 是 挖掘 与 互联 网 有 关 的 数据 ， 既 可 以 是 网 页 包含 的 数据 ， 也 可 以 是 Web 操作 产生 
的 数据 。 数 据 可 分 为 以 下 几 类 。 

(1 ) 网 页 本 身 的 内 容 。 

(2 ) 网 页 内 部 结构 ， 包 括 HTML 或 XML 代码 。 

(3 ) 网 页 之 间 的 链接 结构 。 

(4 ) 描述 网 页 被 如 何 访问 的 使 用 数据 。 

(5 ) 用 户 简 档 ， 包 括 与 人 口 统计 有 关 的 信息 ， 注 册 信息 以 及 从 cookie 中 获取 的 信息 。 

Web 挖掘 任务 可 以 分 为 多 种 ,图 17.1 给 出 了 一 种 挖掘 活动 的 分 类 ， 内 容 可 以 包括 文本 或 者 
图 形 数据 。 尽 管 不 同 的 Web 挖掘 任务 可 以 分 开 描述 ， 但 它们 本 质 上 是 有 联系 的 。 


Web 内 容 Web 结 构 Web 使 用 
挖掘 挖 气 挖掘 

网 页 内 容 结果 - 般 访 问 定制 使 用 
挖掘 模式 挖掘 跟踪 


图 17.1 Web 挖掘 
Web 挖 据 有 很 多 应 用 , 其 中 一 种 应 用 是 针对 性 广告 技术 (“瞄准 ”技术 ), 即 把 广告 发 送 给 ( 而 
且 只 给 ) 那些 最 有 可 能 购买 的 潜在 顾客 。 这 样 广告 费用 降低 但 不 会 影响 效果 。 如 果 对 特定 地 理 区 
域 的 网 民 感 兴趣 , “瞄准 ”技术 可 以 用 来 帮助 把 广告 放 在 该 区 域 的 人 们 经 常 访问 的 网 站 上 。 通 过 
分 析 网 络 访问 记录 ， 可 以 发 现 哪些 站 点 对 这 个 网 站 进行 了 访问 , 也 能 够 得 到 访问 者 的 信息 ， 从 而 
把 广告 出 售 给 那些 最 受益 的 公司 。 


17.2 Web 内 容 挖掘 


内 容 挖 掘 可 以 看 作对 基本 搜索 引擎 所 完成 工作 的 扩展 , 数据 挖掘 技术 可 以 用 来 帮助 搜索 引擎 
变 得 更 迅速 、 更 有 效 和 具有 更 好 的 扩展 性 。 有 很 多 技术 可 以 用 来 进行 互联 网 搜索 ,多 数 是 基于 关 
键 字 的 。 使 用 概念 层次 、 同 义 词 、 用 户 信息 以 及 分 析 网 页 之 间 的 链接 可 以 使 搜索 引擎 的 效果 得 以 
改进 。 传 统 的 搜索 引擎 使 用 息 虫 ( crawler ) 搜索 互联 网 和 搜集 信息 ， 用 索引 技术 存储 网 页 信息 ， 
使 用 查询 处 理 为 用 户 提供 快速 、 准 确 的 信息 。 
基本 的 内 容 挖掘 是 一 种 文本 挖掘 , 文本 挖掘 的 功能 可 以 用 一 个 层 状 结构 表示 , 最 简单 的 功能 
位 于 最 上 一 层 , 最 下 层 对 应 最 复杂 的 功能 。 目 前 正在 研究 把 自然 语言 处 理 技术 用 于 文本 挖掘 ， 以 
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发 现 文本 中 隐 含 的 语义 ， 例 问答 系统 。 更 传统 的 挖掘 任 务 包括 关键 字 搜索 、 相 似 性 度量 、 聚 类 和 
分 类 等 。 


17.2.1 爬虫 


机 器 人 蜘蛛、 爬虫 ) 是 指 遍 历 网 页 超 文本 结构 的 程序 。 遍 历时 初始 的 网 页 称 为 种 子 。 从 初 
始 网 页 开始 , 所 有 指向 外 部 的 链接 被 保存 在 队列 中 ,然后 按 顺 序 访问 队列 中 的 网 页 ， 这 些 网 页 包 
含 的 链接 同样 保存 在 队列 中 。 机 器 人 遍历 网 页 时 ,就 可 以 收集 每 个 网 页 的 信息 , 例如 可 以 抽取 关 
键 字 并 保存 在 索引 表 中 供 使 用 该 搜索 引擎 的 用 户 使 用 。 有 的 爬虫 访问 一 定数 量 的 网 页 后 , 会 停 下 
来 建立 索引 ， 以 蔡 换 旧 索 引 。 这 种 聆 虫 由 于 被 周期 性 地 激活 ， 因 此 称 为 周期 性 朴 虫 。 爬 虫 一 般 用 
来 为 搜索 引擎 建立 索引 ， 使 索引 在 几乎 没有 人 工 干预 的 情况 下 基本 上 保持 最 新 。 
由 于 互联 网 规模 巨大 ， 产 生 了 专用 爬虫 ， 它 只 访问 与 特定 主题 相关 的 网 页 。 与 传统 的 爬虫 
相 比 ， 使 用 许多 专用 息 虫 能 够 履 盖 更 多 的 网 页 ， 并 且 随 着 Web 规模 的 增长 有 更 好 的 扩展 性 。 专 
j 爬 虫 结构 包括 三 个 主要 组 成 部 分 : 
。 ”该 结构 的 主要 部 分 是 一 个 超 文本 分 类 器 , 对 每 个 网 页 依据 其 与 主题 的 相关 程度 打分 。 另 
外 , 该 分 类 器 对 每 个 网 页 计算 资源 率 , 用 于 估计 如 果 访 问 由 该 网 页 链接 的 其 他 网 页 所 获 
得 的 收益 大 小 。 
。 ”提取 器 , 用 于 确定 中 心 网 页 。 所谓 中 心 网 页 是 指 包含 若干 相关 链接 的 网 页 。 中 心 网 页 很 
重要 ， 它 不 一 定 包含 与 主题 相关 的 信息 ， 但 是 应 该 是 顺 着 它 的 链接 进行 搜索 。 
。 ”爬虫 , 用 于 遍历 互联 网 。 访问 网 页 的 顺序 依据 一 个 优先 级 结构 ,优先 级 由 分 类 器 和 提取 
器 确定 。 
使 用 专用 扑 虫 之 前 ， 用户 先 要 准备 一 些 感 兴趣 的 示例 网 页 。 当 用 户 浏览 互联 网 时 , 就 可 以 对 
感 兴趣 的 网 页 进行 标记 。 这 些 网 页 依据 一 棵 有 层次 的 分 类 树 进行 分 类 , 树 中 节点 如 果 与 感 兴趣 的 
网 页 对 应 ， 则 该 节点 标记 为 好 。 这 些 网 页 作为 机 器 人 搜索 的 起 始 网 页 ， 当 搜索 过 程 中 发 现 相关 网 
页 时 ， 需 要 确定 是 否 访问 它 链 向 的 其 他 网 页 ， 每 个 网 页 被 分 类 为 树 中 叶子 节点 。 
后 向 候 虫 用 来 发 现 那 些 本 身 与 主题 相关 但 未 被 已 有 的 相关 文档 链接 的 网 页 。 这 些 网 页 可 能 
是 新 网 页 , 或 者 是 还 没有 被 发 现 和 被 其 他 网 页 链接 的 网 页 。 尽 管 网 页 中 没有 后 向 链接 的 信息 , 但 
后 向 假 行 实现 起 来 比较 容易 ， 因 为 多 数 搜索 引擎 都 有 此 扑 虫 的 信息 。 


17.2.2 ”虚拟 Web 视图 


为 了 处 理 互联 网 上 如 此 大 量 的 无 结构 数据 ,一 种 途径 是 在 网 页 数据 ( 或 者 它 的 一 部 分 ) 上 建 
立 多 层 数据 库 ， 这 种 数据 库 规模 宏大 并 且 是 分 布 式 的 。 数据库 的 每 层 比 它 的 下 层 要 更 概括 。 多 层 
数据 库 为 部 分 互联 网 提供 一 种 抽象 的 精简 视图 。 可 以 构造 多 层 数据 库 的 一 种 视图 , 称 为 虚拟 Web 
视图 。 

多 层 数 据 库 建立 索引 时 不 使 用 息 虫 ,而 是 让 网 站 服务 人 员 ( 网 站 管理 员 、 系 统管 理 员 ) 把 索 
引 (或 者 索引 的 变化 ) 发 送 到 执行 索引 任务 的 站 点 ， 这 个 过 程 在 网 站 内 容 发 生 改变 时 触发 。 每 层 
的 索引 比 它 下 层 的 和 它 指 向 的 层 的 索引 要 小 。 为 了 帮助 建立 多 层 数据 库 的 第 一 层 ， 需要 使 用 抽取 
和 翻译 工具 。 翻 译 工具 用 来 把 网 页 文档 转化 为 XML 格式 ， 抽 取 工具 用 来 抽取 想 要 的 信息 并 插入 
多 层 数据 库 的 第 一 层 。 
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按 层次 往 上 , 数据 库 更 高 层 的 分 布 性 减弱 ,概括 性 变 得 更 强 。 需 要 使 用 概 化 工具 构造 多 层 数 
据 库 的 更 高 层 , 并 且 使 用 概念 层次 辅助 概 化 过 程 。 概念 层次 可 以 使 用 WordNet 语义 网 络 建立 , 它 
是 一 个 英语 语言 数据 库 ， 包括 名 词 、 形 容 词 、 动 词 和 副词 ， 词 划分 为 近义词 组 ， 词 与 词 之 间 根 据 
词法 和 语义 关系 连接 起 来 。 

WebML 作为 一 种 数据 挖掘 语言 被 提出 用 于 多 层 数据 库 上 进行 数据 挖掘 操作 , 它 是 DMQL 的 
扩展 。 网 页 文档 使 用 数据 挖掘 操作 和 关键 词 存 取 。 


17.2.3 个 性 化 


Web 内 容 挖 掘 的 另外 一 个 例子 是 个 性 化 挖掘 。 使 用 个 性 化 技术 , 网 页 访问 或 者 网 页 的 内 容 可 
以 被 更 改 从 而 更 好 地 适应 用 户 的 需求 。 这 涉及 为 每 个 用 户 创建 独特 的 网 页 或 者 根据 用 户 的 要 求 决 

使 用 个 性 化 技术 ， 发 送 给 潜在 客户 的 广告 可 以 根据 顾客 的 特定 信息 而 有 所 选择 。 与 “瞄准 ” 
技术 不 同 , 个 性 化 挖 据 可 以 在 目标 网 页 上 进行 , 目的 是 引导 顾客 购买 他 ( 她 ) 以 前 没 找到 的 商品 。 
个 性 化 几乎 和 “瞄准 ”是 相反 的 ,“ 瞄 准 ” 是 把 广告 放 在 别 的 站 点 上 让 用 户 能 够 访问 到 ， 而 个 性 
化 是 当 用 户 访问 站 点 时 ， 针 对 这 个 用 户 设计 广告 。 

个 性 化 可 以 用 许多 方法 实现 , 有 些 不 是 数据 挖掘 的 方法 。 个 性 化 挖掘 需要 研究 日 志 数据 从 而 
可 以 发 现 用 户 访问 行为 的 模式 ， 这 方面 属于 Web 使 用 挖掘。 

个 性 化 挖掘 可 以 看 作 一 种 聚 类 、 分 类 甚至 预测 。 使 用 分 类 , 一 个 用 户 的 要 求 可 以 根据 一 类 用 
户 的 要 求 确定 , 也 可 以 使 用 聚 类 根据 一 组 与 其 他 人 相似 的 用 户 确定 , 最 后 使 用 预测 来 预知 用 户 的 
真实 要 求 。 有 三 种 基本 类 型 的 个 性 化 技术 : 

。 ”使 用 手工 技术 进行 个 性 化 , 例如 通过 用 户 注册 时 的 偏好 选择 , 基于 用 户 档案 或 统计 信息 

建立 的 规则 对 用 户 分 类 。 

。 ”协同 过 滤 技 术 ， 把 以 前 相似 用 户 评价 较 高 的 信息 ( 网 页 ) 推荐 给 用 户 。 

。 ”基于 内 容 的 过 滤 ， 指 基于 网 页 内 容 以 及 用 户 简 档 信息 之 间 的 相似 性 搜索 网 页 。 

My Yahoo! 是 最 早 使 用 个 性 化 技术 的 网 站 之 一 ， 使 用 My Yahoo! 站 点 时 ， 用 户 可 以 自己 对 屏 
幕 显示 的 内 容 进行 个 性 化 配置 ， 可 以 选择 配置 天 气 、 新 闻 、 股 市 报价 、 电 影 和 体育 等 信息 。 配 置 
偏好 信息 后 ,每 当 用 户 登 录 时 ， 其 配置 的 页 面 就 会 显示 。 个 性 化 工作 由 用 户 完 成 ， 明 确 反 映 用 户 
想 看 到 的 信息 。 

可 以 使 用 兴趣 度 确定 用 户 是 否 对 负面 感 兴趣 。 兴 趣 度 是 基于 网 页 内 容 和 用 户 需求 的 相似 度 。 
通过 在 网 页 和 专 为 用 户 创建 的 配置 中 共同 出 现 的 词 来 度量 相似 度 。 确 定 兴趣 度 可 按 两 级 方案 进 
行 。 第 一 级 基于 用 户 最 近 读 过 的 文章 ， 第 二 级 是 关于 用 户 长 期 的 、 一 般 兴 趣 的 描述 。 一 个 网 页 如 
果 与 二 者 之 一 足够 接近 就 被 认为 是 有 趣 的 。 

由 于 人 们 在 决策 时 通常 会 参考 其 他 人 的 意见 , 如 果 一 个 人 喜欢 某 个 电视 节目 , 这 个 人 的 朋友 
也 可 能 喜欢 。 因 此 可 以 根据 相似 用 户 的 喜好 预测 某 个 用 户 的 偏好 ,这 可 以 看 作 是 一 种 案 类 。 这 种 
技术 用 在 Web 挖掘 中 被 称 为 协同 过 滤 。 
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17.3 Web 结构 挖掘 


Web 结构 挖掘 可 以 看 作 是 为 互联 网 的 组 织 建立 一 个 模型 , 用 来 对 网 页 分 类 或 者 为 网 页 建立 相 
似 性 度量 。 


17.3.1 PageRank 


PageRank 算法 用 于 提高 搜索 引擎 的 搜索 效果 和 效率 。 度 量 网 页 的 重要 性 以 及 为 传统 搜索 引 
擎 使 用 关键 字 搜索 的 结果 进行 优先 级 排序 。 网 页 的 PageRank 值 通过 指向 它 的 网 页 计算 ， 这 实际 
上 是 基于 网 页 后 向 链接 的 一 种 度量 。 给 定 网 页 py， 用 B, 表 示 指 向 p 的 网 页 集合 ,三 表示 由 p 指 
向 其 他 网 页 的 链接 集合 。 网 页 p 的 PageRank 值 定义 为 

_ ,5 FRO 
BRR 六 
这 里 w, 直 斑 1， 常数 ce[0,1]， 用 于 归 一 化 。 
当 网 页 之 间 的 链接 产生 环 路 时 ( 网 页 A 指向 B, 同时 B 指向 A ), PageRank 值 的 计算 会 出 现 
所 谓 的 排序 沉没 问题 ， 此 时 这 些 网 页 的 PageRank 值 会 增加 。 可 用 下 式 解 决 
PR(P=c5 
geBp gq 
这 里 c 取 最 大 。E(Y) 项 对 应 一 个 虚拟 链接 ， 用 于 模拟 一 个 随机 的 用 户 周 期 性 地 决定 访问 链接 的 网 
页 而 跳 到 一 个 新 的 网 页 。E() 为 在 每 对 节点 之 间 添 加 小 概率 的 链接 。 


17.3.2 Clever 


IBM 公 司 开 发 的 Clever 系统 ， 其 目标 是 发 现 权威 网 页 和 中 心 网 页 。 权 威 网 页 是 指 对 请 求 的 
信息 来 说 是 “最 好 的 源 ”的 网 页 ， 含 有 指向 权威 网 页 链接 的 是 中 心 网 页 。 系 统 使 用 加 权 技 术 识别 
权威 网 页 和 中 心 网 页 。 

由 于 网 站 的 分 散 和 无 监督 开发 等 特点 ,用 户 无 法 知道 网 页 包含 的 信息 是 否 正 确 。 目 前 , 没有 
办 法 防止 用 户 制作 包含 错误 或 者 含有 谎言 的 网 页 。 另 外 ， 有 些 网 页 的 质量 可 能 高 于 其 他 网 页 ， 这 
些 网 页 通常 被 看 作 是 最 权威 的 。 

HITS 算法 可 以 用 来 搜索 中 心 网 页 和 权威 网 页 ， 该 技术 包含 两 部 分 : 

。 ”基于 一 组 给 定 的 关键 词 (从 查询 中 得 到 )， 发 现 一 组 ( 可 能 数 以 干 计 ) 相关 网 页 。 

。 ”针对 这 些 网 页 进行 权威 性 度量 和 作为 中 心 网 页 的 度量 ， 返 回 度量 值 最 高 的 网 页 。 


17.4 Web 使 用 挖掘 


Web 使 用 挖掘 的 研究 对 象 是 Web 使 用 数据 或 者 Web 日 志 。Web 日 志 是 一 列 网 页 访问 数据 。 
由 于 每 一 项 数据 对 应 鼠标 的 一 次 点 击 ，Web 日 志 有 时 候 称 为 点 击 流 数据 。 可 以 从 客户 或 者 服务 器 
的 观点 对 日 志 进行 分 析 。 当 从 服务 器 的 观点 分 析 时 ， 挖 气 发 现 的 是 提供 服务 的 网 站 的 信息 , 挖掘 
的 结果 可 以 帮助 改善 网 站 的 设计 。 通 过 分 析 客户 的 点 击 序列 ， 可 以 发 现 一 个 (或 者 一 组 ) 用 户 的 
信息 ， 这 些 信 息 可 以 帮助 实现 网 页 的 预存 取 和 缓存 。 


一 一 +cFEOV) 
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Web 使 用 挖掘 可 以 应 用 于 多 种 不 同 目的 : 

。 通过 跟踪 用 户 以 前 访问 的 网 页 , 实现 用 户 的 个 性 化 。 这 些 网 页 可 以 用 来 识别 用 户 的 典型 
搜索 行为 ， 以 及 用 于 预测 用 户 以 后 想 访问 的 网 页 。 

。 ”通过 确定 用 户 的 频繁 访问 行为 ,可 以 访问 用 户 需求 的 链接 , 提高 用 户 将 来 访问 的 总 体 性 能 。 

。 ”关于 哪些 网 页 经 常 被 访问 的 信息 可 以 用 于 缓存 。 

。 ”识别 通常 的 访问 行为 不 但 可 以 帮助 改变 网 站 的 链接 结构 ,还 可 以 帮助 改进 网 页 的 设计 和 
对 网 站 进行 其 他 修改 。 

。 ”使 用 模式 可 以 用 来 收集 商业 知 能 信息 ， 以 提高 销售 和 改进 广告 效果 。 

。 ”搜集 用 户 如 何 访问 网 页 的 统计 信息 可 以 看 作 是 挖 据 的 一 部 分 ， 也 可 以 看 作 不 是 。 

Web 使 用 挖掘 包含 三 种 类 型 的 工作 : 

。 ” 预 处 理工 作 ， 集 中 对 日 志 数 据 的 格式 进行 转化 。 

。 ”模式 发 现 工作 是 整个 挖 据 过 程 的 主要 部 分 ， 它 从 日 志 数 据 中 发 现 隐 含 的 模式 。 

。 ”模式 分 析 是 研究 和 解释 模式 发 现 工作 的 结果 。 


17.4.1 ” 预 处 理 


Web 使 用 日 志 的 格式 可 能 不 适 于 挖掘 程序 , 所 以 需要 对 其 进行 预 处 理 , 包括 清洗 、 用 户 识别 、 
会 话 识别 、 路 径 补 全 和 转换 格式 。 

清洗 是 清洗 日 志 中 无 关 的 信息 ， 如 包含 图 形 (gif、jpg 等 ) 的 日 志 项 可 以 删除 。 因 为 代理 服 
务 器 、 客 户 端 缓 存 和 企业 防火 墙 的 广泛 使 用 ,使 得 用 户 识别 是 一 个 较为 复杂 的 问题 。 尽 管 对 网 页 
的 一 次 访问 包括 源 URL 或 P 地 址 以 说 明 请 求 的 来 源 , 但 这 却 不 能 保证 完全 正确 地 确定 用 户 的 位 
置 。 通 过 网 络 服务 商 上 网 的 用 户 对 应 的 源 位 置 都 是 该 服务 器 的 ,对 单个 用 户 来 说 位 置 不 唯一 。 另 
外 ,同一 用 户 会 使 用 不 同 的 网 络 服务 商 。 同样 ,在 同一 段 时 间 内 , 会 有 来 自 同一 台 机 器 的 若干 用 
户 访问 网 页 。 不 管用 户 使 用 哪 台 计算 机 ， 用 cookie 可 以 帮助 识别 访问 网 页 的 用 户 。 

如 果 客 户 端 使 用 缓冲 ， 就 难以 识别 用 户 访问 的 网 页 序列 。 在 这 种 情况 下 ,服务 器 端的 日 志 会 
丢失 用 户 访问 的 网 页 。 可 以 通过 预测 丢失 的 网 页 补 全 日 志 。 路 径 补 全 技术 可 以 把 实际 发 生 但 日 志 
中 没有 的 访问 记录 添加 到 日 志文 件 中 。 


17.4.2 ”数据 结构 


在 Web 使 用 挖掘 过 程 中 几 种 数据 结构 用 来 记录 识别 出 的 模式 。 其 中 一 种 基本 的 数据 结构 称 
为 tie, 它 是 一 种 树 结构 , 树 中 从 根 节点 到 叶子 节点 的 每 条 路 径 表 示 一 个 序列 。trie 在 模式 匹配 应 
用 中 用 于 存储 字符 串 ， 字 符 串 的 每 个 字符 保存 在 节点 的 边 中 ,字符 串 的 前 绥 是 共享 的 。 


17.4.3 ”模式 发 现 


点 击 流 数 据 的 挖掘 一 般 是 发 现 浏览 模式 。 浏 览 模式 是 在 一 个 会 话 中 用 户 访问 的 一 组 网 页 。 
Web 使 用 挖掘 也 能 够 采用 其 他 类 型 的 模式 。 相 似 的 浏览 模式 可 以 汇总 在 一 起 用 于 用 户 聚 类 , 这 跟 
网 页 聚 类 不 同 ， 网 页 聚 类 是 识别 相似 的 网 页 而 不 是 用 户 。 

浏览 模式 主要 有 关联 规则 、 片 段 、 顺 序 模式 、 极 大 前 向 访问 、 极 大 频繁 序列 等 ， 它 们 之 间 的 
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区 别 可 以 用 下 面 的 特征 来 描述 : 

。 ”是 否 允许 重复 的 网 页 访问 (后 向 访问 和 刷新 )。 

。 ”模式 可 以 只 包含 连续 的 网 页 访问 ,或 者 同一 会 话 的 任何 网 页 。 

。 ”访问 模式 在 会 话 中 是 否 极 大 。 频 繁 模 式 极 大 是 指 模式 中 不 包含 任何 频繁 子 模式 。 

上 述 三 种 特征 的 不 同 组 合 可 以 用 来 发 现 不 同 的 模式 , 因此 可 以 用 于 不 同 目的 。 有 关连 续 网 页 
频繁 访问 的 知识 可 以 用 来 预测 后 来 的 网 页 访问 , 从 而 可 以 用 于 网 页 预 取 和 缓存 。 关 于 后 向 访问 的 
知识 可 以 用 于 改进 一 组 网 页 的 设计 , 通过 添加 新 的 链接 缩短 访问 时 间 。 模式 的 极 大 性 主要 用 于 减 
少 模式 的 数量 。 


17.4.4 模式 发 现 


模式 一 旦 被 发 现 , 通常 需要 进行 分 析 以 确定 其 如 何 使 用 。 用 户 可 能 对 有 些 模式 不 感 兴趣 , 需 
要 将 它们 删除 。 

通过 对 网 站 日 志 的 分 析 , 不 仅 可 以 发 现 频繁 出 现 的 模式 , 还 可 以 识别 出 用 户 对 哪些 模式 感 兴 
趣 。 发 现 的 模式 也 可 以 不 是 邻近 网 页 的 。 

将 网 站 的 访问 者 分 为 得 期 访问 者 、 调 查 者 和 顾客 ,以 比较 电子 商务 网 站 的 顾客 和 非 顾 客 用 户 
的 浏览 模式 。 首 先 通 过 预 处 理 过 滤 掉 短期 访问 者 , 然后 使 用 概念 层次 把 网 页 内 容 抽象 到 更 一 般 的 
概念 ， 把 日 志 划 分 为 顾客 和 非 顾客 的 ， 最 后 按照 特定 的 要 求 分 析 每 部 分 日 志 以 寻找 模式 ， 最 后 对 
每 部 分 找到 的 模式 作 相似 性 比较 。 相 似 性 按照 下 面 的 规则 确定 : 

如 果 两 个 模式 的 g- 序 列 最 开始 至 少 个 网 页 相同 , 那么 这 两 个 模式 是 相似 的 。 这 里 ”由 用 户 
指定 。 g- 序 列 是 一 个 向 量 , 向 量 中 的 元 素 不 仅 包括 访问 的 网 页 , 还 可 以 包含 通配符 。 例 g- 序 列 b*c 
代表 4b 网 页 开头 ,ce 网 页 结束 ， 中 间 可 以 包含 任意 数目 的 任何 网 页 。 由 于 使 用 通配符 ， 因 此 网 页 
可 以 不 邻近 。 更 加 复杂 的 g- 序 列 可 以 对 通配符 代表 的 网 页 数目 进行 限制 。 

另外 , 可 以 只 考虑 频繁 出 现 的 模式 片段 ， 这 样 做 的 目的 是 增加 顾客 的 数目 。 如 果 发 现 非 顾客 
的 模式 ， 并 且 没 有 相似 的 顾客 模式 ， 则 表明 网 站 的 链接 结构 或 者 网 页 的 内 容 设计 需要 改变 。 


17.4.5 “基于 组 织 协同 进化 的 Web 日 志 挖 掘 算法 


Web 日 志 挖掘 是 对 一 个 或 若干 个 网 站 的 用 户 访问 记录 和 其 他 数据 组 成 的 数据 集 进 行 分 析 挖 
据 ， 并 从 中 获得 有 价值 的 有 关 网 站 访问 情况 的 模式 知识 。 

目前 ,， Web 日 志 挖掘 技术 主要 有 以 Han 为 代表 的 基于 数据 立方 体 的 方法 和 以 Chen 为 代表 的 
基于 Web 事务 的 方法 。 在 基于 数据 立方 体 的 Web 日 志 挖 掘 技 术 中 , Han 等 人 根据 Web 服务 器 日 
志文 件 建立 数据 立方 体 ， 然 后 对 数据 立方 体 进行 数据 挖掘 和 联机 分 析 处 理 。 在 基于 Web 事务 的 
Web 日 志 挖 据 中 ，Chen 等 人 将 数据 挖掘 技术 应 用 于 服务 器 日 志 中 。 而 基于 组 织 协同 进化 的 Web 
日 志 挖 掘 算法 可 以 克服 传统 算法 中 的 不 足 。 

典型 的 服务 器 日 志 包括 以 下 信息 : 卫 地址 、 请 求 时 间 、 方 法 ( 如 get )， 被 请 求 文件 的 UR1， 
HTTP 版 本 号 、 返 回 码 、 传 输 字 节 数 ， 引 用 页 的 UR1 和 代表 。 对 Web 日 志 进行 预 处 理 后 ， 可 以 
log={ip,uid,urltime} 的 形式 表示 Web 服务 器 日 志 。 其 中 , ip、uid、url、time 分 别 代表 客户 卫 、 客 
户 ID、 客 户 请 求 的 URI1 和 浏览 时 间 。 然 后 对 日 志 数 据 再 作 进 一 步 的 处 理 ， 使 其 能 合理 地 反映 用 
户 在 某 一 段 时 间 内 的 浏览 行为 。 
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一 个 网 页 一 般 含 有 成 百 上 干 的 页 面 , 因此 仅仅 对 页 面 进行 分 析 很 难 发 现 有 用 的 信息 。 a 
的 页 面 一 般 是 按 页 面 的 类 别 进行 组 织 的 , 比如 一 个 新 闻 网 站 会 将 页 面 按 国 际 新 闻 、 国 内 新 闻 、 
济 、 政 治 等 栏目 分 类 组 织 ， 所 以 为 了 便于 对 Web 日 志 进行 数据 挖掘 ， ae 
志 数 据 集 ， 表 的 结构 如 表 17.1 如 示 。 

表 17.1 Web 日 志 数据 的 表示 












































urltype1 urltypen User*type 
1 时 a 
1 1 b 
1 0 c 
0 1 d 











表 中 的 每 一 行 记录 表示 用 户 的 一 次 会 话 ， 其 中 urltypei( 关 1.2,… 站 表示 第 i 个 网 页 类 型 ， 
user*type 表示 用 户 的 类 型 。 其 中 的 urletype 表示 网 页 类 别 ，type 表示 客户 的 类 型 。 当 每 次 用 户 会 
话 中 ， 有 属于 ne 该 字段 的 值 就 为 1， 否则 为 0。 

算法 中 处 理 对 象 是 它 由 一 条 或 多 条 日 志 记 录 组 成 , 可 分 为 自由 态 组 织 、 异 常态 组 织 和 
正常 态 组 织 3 种 。 erred Re 日 志 记录 个 数 为 1 的 组 织 ， 其 属性 均 为 有 用 属性 ， 其 集合 
记 为 free。 异 常态 组 织 是 指 有 用 属性 集 为 空 的 组 织 ， 其 集合 记 为 abnormal; 其 余 的 组 织 为 正常 态 
组 织 , 其 集合 记 为 normal。 在 组 织 中 所 有 用 户 访问 记录 的 取 值 均 相 同 的 条 件 属性 为 相同 属性 ; 如 
果 某 条 件 属性 为 相同 属性 , 且 按 一 定 规则 该 条 件 属性 被 判 为 可 参与 组 织 适 应 度 的 计算 , 则 该 条 件 
属性 为 有 用 属性 。 

算法 中 , 各 个 条 件 属 性 的 重要 度 随 着 种 群 的 不 断 进化 也 不 断 进化 。 属 性 的 重要 度 在 进化 的 过 
程 中 ,根据 不 同 的 情况 而 降低 和 升 高 。 算 法 中 的 算 子 为 增 减 算 子 、 交 换算 子 、 合 并 算 子 和 组 织 选 
择 算 子 ， 但 算 子 中 的 m 与 n 定 为 一 百分数 。 这 样 当 组 织 大 小 变化 时 ， 组 织 中 参与 增 减 算 子 与 交 
换算 子 操作 的 对 象 个 数 也 随 之 变化 。 另 外 ， 当 随机 选择 的 两 个 组 织 , 假如 其 中 有 一 个 组 织 中 日 志 
记录 个 数 不 大 于 1， 则 只 执行 合并 算 子 。 

在 种 群 进 化 的 过 程 中 , 先 通过 两 个 不 同 的 组 织 随机 地 执行 增 减 、 交 换 或 合并 算 子 产生 子 代 组 
织 ; 然后 用 组 织 选择 算 子 从 父 代 和 子 代 中 选择 出 组 织 适 应 度 高 的 组 织 , 并 使 整个 种 群 的 适应 度 不 
断 提高 。 整 个 种 群 就 通过 这 样 的 方式 不 断 进化 ， 当 进化 结束 后 ， 从 最 终 进 化 的 组 织 中 提取 规则 。 
算法 中 正常 态 组 织 的 适应 度 计算 公式 如 下 














Iaseoel 
fitnesso =| org | II ci 
二 


其 中 : ci 表示 组 织 org 有 用 属 集中 第 i 个 属性 的 重要 度 。 在 组 织 选 择 中 ， 用 下 面 的 公式 计算 父 代 
和 子 代 组 织 的 适应 度 值 





fitness = max {fitnessoro1, fitnessoro2} 


其 中 : fitnessosl 、fitnessoz 分 别 表示 组 织 orgl 和 组 织 org2 的 组 织 适应 度 值 。 
算法 的 具体 描述 如 下 。 
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Q@ 群体 初始 化 : 把 网 站 用 户 的 类 型 定义 为 改天 2,…:m)。 这 样 ， 通 过 把 每 一 类 用 户 类 型 定 
义 为 一 个 种 群 ， 得 到 m 个 种 群 。 其 中 种 群 定义 为 p《 二 1,2,…,m)。 把 用 户 类 型 为 4 的 日 志 
记录 以 自由 态 组 织 加 入 种 群 疡 中 ,， 且 令 进化 代数 天 0， 变量 天 1。 

@ 如 果 变 量 i 大 于 种 和 群 个 数 m， 则 转 入 步骤 @， 否 则 转 入 步骤 @)。 

@ 如 果 在 当前 进化 代数 * 中 , 种 群 p(D) 中 未 进化 的 组 织 个 数 大 于 1， 则 转 入 步骤 @， 否 则 转 

@ 从 pi 中 随机 选择 两 个 组 织 orgp! 和 orgpz 作为 父 代 组 织 ; 当 父 代 组 织 中 有 一 组 织 为 自由 态 
组 织 时 ， 执 行 合并 算 子 ;否则 从 增 减 、 交 换 和 合并 算 子 中 随机 选择 一 个 算 子 ， 对 orgp! 和 
orgp 进行 相应 的 操作 ， 产 生子 代 组 织 orgs 和 orgw。 

@@ 组 织 适 应 度 的 计算 : 若 组 织 所 含 的 日 志 记录 个 数 为 1, 则 令 组 织 类 型 为 fee, 组 织 适应 度 
为 0; 否则 根据 属性 重要 度 的 进化 算法 ， 更 新 属性 重要 度 ， 并 确定 有 用 属性 集合 ; 若 有 
用 属性 集合 为 空 集 ， 则 令 组 织 类 型 为 abnormal， 组 织 适应 度 为 - 1; 否则 令 该 组 织 类 型 为 
normal， 并 计算 适应 度 。 

@ 组 织 选择 : 计算 父 代 和 子 代 组 织 的 适应 度 值 。 若 父 代 组 织 的 适应 度 大 于 子 代 组 织 的 适应 
度 ， 将 orgs 和 orge 淘汰 ， 将 orgp!、orgp2 标 志 记 为 已 进化 ， 然 后 加 入 下 一 代 ; 否则 ,将 
orgp! 和 orgpm 淘汰 ， 如 果 orgs 、o1g。 gabnormal ， 将 orge! 和 orgez 标 志 为 已 进化 ,然后 
加 入 下 一 代 ; 否则 , 不 妨 设 异常 态 组 织 为 org, 并 将 orge 解 散 ， 其 对 象 以 自由 态 组 织 形 
式 进入 下 一 代 ， 将 orgu 标志 为 已 进化 ， 然 后 加 入 下 一 代 。 

@ 变量 ;的 值 加 1 ( 即 对 下 一 个 种 群 执行 组 织 进化 操作 )， 转 入 步骤 @。 

如 果 进 化 代数 + 达到 了 设 定 的 进化 代数 ， 则 用 相应 的 规则 提取 算法 从 最 终 进化 的 组 织 中 
提取 规则 ， 返 回 ; 否则 ， 对 变量 ; 赋 初 值 1， 进 化 代数 的 值 加 1， 转 入 步骤 @。 

当 进化 结束 后 , 每 一 个 种 群 中 具有 相同 抽取 规则 的 日 志 记录 就 聚集 在 一 个 组 织 中 。 通常 可 以 
简单 地 将 每 个 组 织 的 相同 属性 转化 成 规则 , 这 样 从 每 个 组 织 中 可 以 得 到 一 条 规则 ; 但 当 一 个 种 群 
进化 结束 后 形成 多 个 组 织 时 , 这 样 简单 地 提取 规则 形成 的 规则 集合 会 有 较 大 的 宛 余 。 这 时 如 果 某 
个 组 织 的 有 用 属性 集 为 另 一 组 织 有 用 属性 集 的 子 集 , 则 将 这 两 个 组 织 合并 , 新 组 织 的 有 用 属性 集 
为 原来 两 个 有 用 属性 集 的 交集 。 

该 算法 的 计算 复杂 度 低 , 具有 较 快 的 收敛 速度 , 算法 产生 的 规则 集 较 小 ， 而 且 预 测 的 正确 率 
较 高 。 
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第 4 篇 数据 挖掘 应 用 实战 


数据 挖掘 从 一 开始 就 是 面向 应 用 的 ， 自 从 20 世纪 80 年 代数 据 挖 气 出 现 至 今 ,数据 挖掘 在 理 
论 研究 上 日 至 成 熟 ， 正 不 断 扩展 其 应 用 范围 ， 该 技术 已 经 在 电信 、 人 金融 、 医 疗 保健 、 商 业 、 入 侵 
检测 、 工 程 与 科学 等 很 多 领域 中 得 到 了 广泛 的 应 用 , 出 现 了 大 量 的 商品 化 的 数据 挖掘 产品 和 系统 。 

目前 ， 国 内 已 经 存在 的 数据 挖 气相 关 产 品 大 致 属于 以 下 三 种 类 型 。 

(1) 面向 某 一 行业 甚至 某 一 应 用 的 专用 数据 挖掘 产品 。 这 类 产品 是 由 开发 商 为 某 一 特定 用 
户 或 特定 应 用 开发 的 专用 数据 挖掘 系统 衍化 而 来 。 其 特点 是 算法 针对 性 强 、 模 型 设计 严谨 科学 、 
功能 较 强 ， 缺点 是 通用 性 较 差 ， 不易 修改 。 

(2) 基于 国外 产品 经 过 二 次 开发 而 来 的 软件 。 国 内 一 些 数 据 挖掘 产品 是 在 SAS、SAP 等 国 
外 产品 基础 上 经 过 二 次 开发 得 到 的 。 从 严格 意义 上 讲 ， 这 些 软件 不 具有 完全 的 自主 知识 产权 。 

(3) 自主 研发 的 通用 数据 挖掘 产品 。 国 内 也 有 少量 的 自主 开发 的 数据 挖掘 软件 。 这 些 产品 
中 包含 的 算法 多 ， 可 用 范围 广 ， 可 修改 ， 维 护 性 较 强 ， 但 规范 性 较 差 ， 未 遵守 国外 数据 挖掘 业界 
的 工业 标准 ， 造 成 扩展 性 及 兼容 性 的 缺陷 。 

随 着 数据 挖掘 的 需求 越 来 越 强 , 如 何 缩短 国内 数据 挖掘 产品 与 国外 产品 在 数量 上 和 质量 上 的 
差别 ， 研 发 相应 的 数据 挖掘 软件 成 为 国内 业界 的 一 个 重要 问题 。 

一 个 性 能 较为 完善 的 数据 挖掘 软件 应 具有 较 好 的 可 扩展 性 、 可 重用 性 、 易 用 性 等 性 能 。 根 据 
这 个 目标 ， 可 以 采用 多 种 语言 进行 编程 。 

MATLAB 软件 是 一 种 功能 强 、 效 率 高 、 便 于 进行 科学 和 工程 计算 的 交互 式 软件 包 ， 编 程 效 
率 高 ， 易 学 易 用 ， 也 易于 与 其 他 传统 编程 语言 (如 C、C+ 十 和 Fortran) 互 为 调用 。 自 推出 后 ， 
即 风行 美国 、 流 传 全 世界 ， 被 广泛 应 用 于 信号 和 图 像 处 理 、 通 信 、 控 制 系统 设计 、 测 试 和 测量 、 
财务 建 模 和 分 析 以 及 计算 生物 等 众多 领域 的 数学 与 计算 、 算 法 开发 、 数 据 采 集 、 建 模 与 模拟 、 数 
据 分 析 、 研 究 和 可 视 化、 科学 与 工程 图 形 、 应 用 程序 开发 等 实际 应 用 。 

正 是 由 于 MATLAB 具有 如 此 强大 的 功能 , 本 篇 将 介绍 基于 MATLAB 的 数据 挖掘 在 科学 研 
究 中 的 应 用 ,为 推广 数据 挖掘 的 应 用 以 及 开发 数据 挖掘 软件 提供 一 个 有 力 的 工具 和 重要 的 参考 
作用 。 
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18.1 数据 关系 发 现 


数据 挖掘 基于 海量 数据 ,而 这 些 海量 数据 大 多 都 存储 在 大 型 的 关系 数据 库 中 。 所 以 在 进行 数 
据 挖 据 之 前 ， 首 要 的 是 分 析 数 据 库 中 的 数据 业务 关系 ， 数 据 技术 关系 和 数据 描述 等 。 

数据 库 业务 关系 指数 据 库 表 间 及 表 内 关系 。 数据 挖掘 所 基于 的 数据 可 能 是 存在 于 同一 数据 文 
件 、 不 同 数据 文件 或 不 同 的 数据 库 中 ， 因 此 ， 表 间 关系 就 是 指 各 个 数据 库 中 数据 相互 间 的 关系 ， 
如 两 个 数据 库 表 间 的 数量 是 依赖 关系 还 是 从 属 关系 等 。 而 表 内 关系 是 要 发 现 数据 库 表 内 字段 间 的 
关系 ， 主 要 探索 列 属性 、 列 逻辑 相关 等 。 在 此 基础 上 提取 元 数据 ， 包 括 字 段 名 称 、 字 段 数据 类 型 
等 一 系列 相关 的 内 容 ， 从 而 为 数据 挖掘 准备 好 数据 。 

数据 统计 又 称 为 汇总 统计 ， 即 用 单个 数 或 数 的 小 集合 来 捕获 大 的 数据 集 的 各 种 属性 或 特征 。 
数据 统计 特性 主要 有 中 心 趋势 和 离散 程度 两 部 分 。 中 心 趋势 度 量 包括 均值 、 中 位 数 、 众 数 和 中 列 
数 ; 离散 程度 度量 有 四 分 位 数 、 四 分 位 数 极 差 、 频 率 、 方 差 等 。 




















18.2 ”频率 和 众 数 
设 一 个 在 {x1ix2,… xR} 上 取 值 的 分 类 属性 x 和 m 个 对 象 的 取 值 ， 值 x; 的 频率 定义 为 
全 _ 具有 属性 值 x 的 对 象 数 
equency(%) =————— 


m 
众 数 是 集中 出 现 频率 最 高 的 值 。 对 于 分 类 属性 而 言 ， 众 数 可 以 看 成 中 心 趋势 度量 ; 对 于 连续 
属性 而 言 ， 众 数 则 通常 没有 意义 。 


18.3” 百 分 位 数 ( percentile ) 


对 于 有 序数 据 ， 有 时 考虑 值 集 的 百 分 位 数 更 有 意义 。 给 定 一 个 有 序 的 或 连续 的 属性 x 和 0 到 
100 之 间 的 数 p， 数 据 集合 的 第 p 个 百 分 位 数 专 是 一 个 x 值 ， 使 得 x 的 p% 的 观察 值 正好 小 于 xp。 
中 位 数 是 第 50 个 百 分 位 数 xsow。 

除 中 位 数 外 ， 最 常用 的 百 分 位 数 是 四 分 位 数 ( quartile )， 第 一 个 四 分 位 数 记 作 @,， 是 第 25 
个 百 分 位 数 xzsw; 第 三 个 四 分 位 数 记 作 83， 是 第 75 个 百 分 位 数 x7sw%。 四 分 位 数 可 以 给 出 数据 分 
布 的 中 心 、 离 散 和 形状 的 某 种 指示 , 第 一 个 和 第 三 个 四 分 位 数 之 间 的 距离 是 分 布 的 一 种 简单 度量 ， 
它 给 出 被 数据 的 中 间 一 半 所 覆盖 的 范围 ， 称 为 四 分 位 极 差 ， 定 义 为 IQR = 83 -Qi。 


18.4 中 心 度量 


数据 集 “ 中 心 ” 的 最 常用 、 最 有 效 的 数值 度量 是 均值 和 中 位 数 。 
设 属性 x 的 m 个 值 为 {xix2,… zm} ，feoxo zw)} 代 表 以 非 递 碱 排序 后 的 x 值 , 该 属性 值 的 
均值 和 中 位 数 分 别 定义 为 
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NetD 如 果 是 奇数 ， 即 m=2r+1 
median(x,)=1 1 


FC + x) 如 果 m 是 偶数 ， 即 m=2r 


有 时 ， 集 合 中 每 个 值 x 与 一 个 权 值 w 相关 联 ， 权 值 反 映 对 应 值 的 显著 性 、 重 要 性 或 出 现 频 
率 ， 此 时 常 使 用 加 权 算术 平均 值 





m 
一 Zs 十 十 -十 
X= 也 he Xm Wm 
加 
六 mw 十 二 十 一 二 Wi 
' 
村 


尽管 均值 是 描述 数据 集中 最 常用 的 单个 度量 , 但 不 一 定 是 度量 数据 中 心 的 最 合适 的 参数 。 均 
值 的 主要 问题 是 对 极端 值 ( 如 离 群 值 ) 很 敏感 ， 即 使 少量 极端 值 也 可 以 影响 均值 。 为 了 减少 极端 
值 的 影响 ， 可 使 用 截断 均值 。 它 是 指定 0 到 100 之 间 的 百 分 位 数 p， 丢 弃 高 端 和 低 端 gp/2)% 的 数 
据 ， 然 后 用 常规 的 方法 计算 所 得 的 均值 结果 即 为 截断 误差 。 

对 于 倾斜 的 ( 非 对 称 的 ) 数据 ,数据 中 心 的 一 个 较 好 度量 是 中 位 数 。 在 完全 对 称 的 数据 分 布 
中 , 均值 和 中 位 数 具 有 相同 的 值 ; 如 果 是 正 倾斜 的 ， 其 均值 大 于 中 位 数 ; 如 果 是 负 倾斜 的 ， 则 均 
值 小 于 中 位 数 。 

中 列 数 ( midrange ) 也 可 以 用 来 评估 数据 的 中 心 趋势 ， 其 定义 为 


Imidrange(x) = 了 aaxG9 +Iin(x)) 


18.5 ”散布 程度 度量 


连续 数据 的 另 一 个 常用 汇总 统计 量 是 值 集 的 散布 度量 , 它 表示 属性 值 是 否 散布 很 宽 , 或 者 是 
否 相对 集中 在 某 个 值 附近 。 
最 简单 的 散布 度量 是 极 差 ， 其 定义 为 
Range(x) = max(x)— min(x) 
尽管 极 差 可 以 标识 最 大 散布 , 但 是 如 果 数 据 的 大 部 分 值 都 集中 在 一 个 较 罕 的 范围 内 , 极端 值 
的 个 数 相对 较 少 ， 则 可 能 会 引起 误解 。 此 时 采用 方差 较为 合适 





y | 
variance(x)= 5? =——— D(x —x) 
| i 


方差 对 离 群 值 很 敏感 ， 更 加 稳健 的 值 集 散布 估计 方法 有 绝对 平均 偏差 ( Absolute Average 
Deviation，ADD )、 中 位 数 绝对 偏差 ( Median Absolute Deviation，MAD ) 和 四 分 位 数 极 差 IRQ。 


和 i 
ADD = 一 >》| 国 一 工 
| 1x| 


MAD = median({| xs —x|,…,| x, —x)}) 


还 可 以 用 偏 度 和 上 峰 度 来 刻画 数据 的 偏 态 、 尾 重 程度 的 度量 。 偏 度 的 计算 公式 为 
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mu, 
x = 3 
ED 2e- 


(ma 一 RE 2)s (wm —D(m—2)s’ 


式 中 : s 是 标准 差 ，u = -zx 是 样本 大 阶 中 心 距 。 


本 





偏 度 是 刻画 数据 对 称 性 的 指标 。 关 于 均值 对 称 的 数据 其 偏 度 G = 0; 右 侧 更 分 散 的 数据 ( 即 
右 尾 长 ) 偏 度 为 正 ( G1 > 0 ); 左 侧 更 分 散 的 数据 ( 左 尾 长 ) 偏 度 为 负 ( G1 <0 )。 

峰 度 的 计算 公式 为 

m(m+1) =4 (mm 一 ]) 7 
一 -一 -一 一 一 》 (一 oj 一 3 一 一 一 一 一 一 
(m—D(m—2)(m—3)s" ba 9 (m—2)(m—3) 
四 m’ (m+ Du, 用 (mm 一 D2 
(m—D(m—2)m-—3)s: ~ (m—2)(m—3) 

当 数据 的 总 体 分 布 为 正 态 分 布 时 ， 峰 度 G, 近似 为 0; 当 分 布 较 正 态 分 布 的 尾部 更 分 散 时 ， 
峰 度 为 正 ( G, > 0 ); 否则 峰 度 为 负 ( G,<0 )。 当 峰 度 为 正 时 ， 两 侧 极端 数据 较 多 ( 粗 尾 ); 当 峰 
度 为 负 时 ， 两 侧 极端 数据 较 少 ( 细 尾 )。 


18.6 数据 的 分 布 描述 

数据 的 数字 特征 刻画 了 数据 的 主要 特征 ,而 要 对 数据 的 总 体 情况 作 全 面 的 描述 , 就 要 研究 数 
据 的 分 布 。 对 数据 分 布 的 主要 描述 方法 是 频数 或 频率 分 布 表 、 直 方 图 、 总 体 分 布 、 芭 时 图 等 。 

1. 频数 频率 分 布 表 

(1 ) 当 数据 为 离散 型 时 。 

设 样 本 观察 值 {x1,x2,… ,xn} ， {XX0), ~ 0} ( 二 ) 代表 以 非 递减 排序 后 的 x 值 ， 则 可 
以 得 到 表 18.1 所 示 的 频数 分 布 和 频率 分 布 表 。 

表 18.1 ”频数 分 布 和 频率 分 布 表 


* | +» | 中 | - | » 


频数 i mi m2 人 my 


G,= 














频率 mj/n m/ln n/n 3 mln 


(2 ) 当 数 据 为 连续 型 时 。 
数 所 取舍 为 一 有 限 区 间 [a.6 )， 通 常 将 [a ) 分 成 1 个 ( 1<n ) 区 间 (一般 是 等 间距 的 )， 每 个 
区 间 的 长 度 为 (6 一 a)/1( 称 为 组 距 )， 则 


a=ao <al <a,<-…<a<a=b 








通常 组 数 可 以 考虑 取 : 71%1.87(n 一 D)” 
表 18.2 给 出 了 一 些 1 值 以 供 参考 。 
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表 18.2 ”数据 分 组 数 的 参考 值 
n | 40-60 | 100 | 150 | 200 | 400 | 600 | goo | 1000 | 1500 | 2000 | 5000 | 10000 
1| 68 |79|1015| 16 | 20|24|27 30 35 39 56 74 
组 距 Ax= ( 数据 中 最 大 值 -数据 中 最 小 值 ) /组 数 ， 各 组 区 间 的 端点 为 


qosao + Ax = a,ao +2Ax = a,,-…,ao +lAx = a 





区 间 为 
[aosa), [a 02),, [ois 91) 
其 中 : ao 可 略 小 于 数据 的 最 小 值 ;， am 可 略 大 于 数据 的 最 大 值 。 
通常 可 用 每 组 的 组 中 值 = (组 上 限 + 组 下 限 ) /2 来 代表 该 组 的 变量 取 值 。 
统计 样本 数据 落 入 每 个 区 间 的 个 数 一 频 数 ， 并 列 出 其 频数 、 频 率 分 布 表 。 





2. 直方 图 
对 于 数据 分 布 ， 常用 直方 图 进行 描述 ， 即 频率 分 布 的 图 形 表示 。 它 在 组 距 相 等 场合 ,常用 宽 
度 相 等 的 长 条 矩形 表示 , 矩形 的 高 低 表示 频 率 的 大 小 , 横 坐 标 为 变量 的 取 值 范围 , 纵 坐标 为 频数 。 
若 把 纵 坐 标 改 为 频率 就 得 到 频率 直方 图 。 
为 使 诸 长 条 矩形 面积 和 为 1， 通 常 将 纵 坐标 取 为 频率 /组 距 (fi/Ax )， 如 此 得 到 的 直方 图 称 为 
单位 频率 直方 图 或 简称 频率 直方 图 。 
3. 经 验 分 布 函数 
直方 图 的 制作 较 适 合 于 连续 型 分 布 的 场合 。 对 于 一 般 总 体 分 布 , 若 要 估计 它 的 总 体 分 布 函数 
1 
F(x)， 可 以 用 经 验 分 布 函 数 进行 。 设 样本 观察 值 {xi,x2,-… ,xn}，{x0ysx0), -Xx@} (7 = m, ) 代表 
以 非 递减 排序 后 的 x 值 ， 则 经 验 分 布 函数 为 
0 x<xo 
F(x)= 上 基站 和 闪 基 二 二 
a n 多 (人 (iD) 
1 x 二 xm 
4. QQ 图 
不 论 是 直方 图 还 是 经 验 分 布 图 ， 要 从 图 上 鉴别 样本 是 否 近似 于 某 种 类 型 的 分 布 是 困难 的 。 
QQ 图 则 可 以 鉴别 样本 的 分 布 是 否 近 似 于 某 种 类 型 的 分 布 。 
现 假设 总 体 分 布 为 正 态 分 布 No ) » 对 于 样本 {xcsx2,… en} ， {XX x0} (n 2 ) 


为 以 非 递 碱 排序 后 的 x 值 ， 设 D(x) 是 标准 正 态 分 布 Y(0.D 的 分 布 函数 ，@ (zx) 是 其 反 函 数 ， 对 
应 正 态 分 布 的 QQ 图 是 由 以 下 的 点 构成 的 散 点 图 : 
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ES l<i<n 
n+0. 


若 样 本 数据 近似 于 正 态 分 布 ， 则 QQ 图 上 的 点 近似 在 直线 y=ox+4 附 近 。 所 以 可 以 利用 
QQ 图 检验 样本 数据 是 否 来 自 正 态 分 布 总 体 . 利 用 QQ 图 还 可 以 获得 样本 偏 度 和 峰 度 的 有 关 信 息 。 


5. 荃 叶 图 


把 第 一 个 数值 分 成 两 部 分 ， 小 数 点 前 面 (或 大 整数 ) 部 分 称 为 茎 ， 小 数 点 后 面 (或 小 整数 ) 
部 分 称 为 叶 ， 然 后 用 一 条 坚 线 ， 在 竖 线 的 左 侧 写 上 茎 ， 右 侧 写 上 叶 ， 就 形成 了 如 图 18.1 所 示 的 





茎 叶 图 。 
34 | 7 
35° | 
36 | 279 
37 .095272309 
38|3689 
39|266 
40 | 0 6 
41 | 7 
图 18.1 茎 叶 图 
6. 盒 形 图 


盒 形 图 能 直观 、 简 洁 地 展现 数据 分 布 的 主要 特征 ， 其 构造 方法 如 下 。 

(1 ) 画 一 个 箱子 ， 其 两 侧 恰 为 下 四 分 位 数 Q 和 上 四 分 位 数 Q@， 中 间 有 一 道 线 ， 是 中 位 数 
M 的 位 置 。 这 个 箱子 包含 了 样本 中 50% 的 数据 。 

(2) 在 箱子 上 下 两 侧 各 引出 一 条 水 平 线 ， 分 别 延 伸 至 异常 值 截断 点 ， 异 常 值 用 “+ ”表示 。 

18.2 即 为 一 盒 形 图 。 
































盒 形 图 
网 = 
90 
85 
二 
县 80 
75 
70 
65 EE 
1 
图 18.2 盒 形 图 
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18.7 数据 的 概率 分 布 


数据 概率 分 布 主要 是 指数 据 的 自然 属性 。 不 同 的 维度 、 变 量 下 的 数据 分 布 可 能 不 同 , 不 同 种 
类 的 数据 有 不 同 的 分 布 。 

常见 的 连续 数据 分 布 有 高 斯 分 布 、 工 分 布 、F 分 布 、 二 次 项 分 布 、 几 何 分 布 和 泊 松 分 布 等 。 
这 些 分 布 的 具体 描述 见 统计 学 相关 书籍 。 

















383 


实战 大 数据 一 一 MATLAB 数据 挖掘 详解 与 实践 








384 


第 了 9 音 


数据 预 处 理 


四 实战 大 数据 一 一 MATLAB 数据 挖掘 详解 与 实践 


386 


19.1 数据 预 处 理 完毕 


数据 挖掘 的 目的 是 从 大 量 日 常 业务 数据 中 抽取 一 些 有 价值 的 知识 或 信息 。 原始 业务 数据 是 知 
识 和 信息 提取 的 源泉 ， 对 于 数据 挖掘 十 分 重要 。 在 实际 应 用 中 , 海量 数据 来 自 众多 系统 ,具有 多 
种 形式 和 类 型 ， 其 总 是 杂乱 无 章 、 不 完全 的 ， 有 时 是 难以 理解 的 。 数 据 的 质量 主要 受 噪声 数据 、 
空缺 数据 、 元 余数 据 、 模 糊 数据 、 无 意义 数据 以 及 不 一 致 数据 等 方面 的 影响 ， 另 外 , 原 有 数据 特 
征 有 时 不 能 足够 地 体现 隐藏 在 其 后 的 规律 , 需要 从 原 有 特征 探索 新 的 特征 ,以 更 好 地 表现 对 象 的 
行为 规律 。 因 此 ， 在 数据 挖 据 前 有 必要 通过 预 处 理 来 提高 数据 的 “质量 ”。 

数据 预 处 理 技术 为 进一步 的 数据 分 析 做 准备 , 并 能 确定 挖掘 的 类 型 , 可 以 提高 数据 挖掘 的 质 
量 。 其 中 , 数据 清理 可 以 纠正 不 一 致 数据 ， 去 掉 数 据 中 的 噪声 ; 数据 集成 能 将 多 个 数据 源 合并 成 
一 致 的 数据 存储 模式 ， 如 数据 立方 体 ; 数据 转换 可 以 把 数据 变换 成 适 于 数据 挖掘 的 形式 ; 数据 归 
约 通过 聚集 、 删 除 元 余 特性 或 聚 类 等 方法 来 压缩 数据 。 


19.2 ”数据 清理 


数据 清理 的 目的 是 检测 数据 中 的 错误 和 不 一 致 ,通过 填写 缺失 的 数据 、 光 滑 噪声 数据 、 识 别 
或 删除 离 群 点 并 解决 不 一 致 的 现象 ， 从 而 改善 数据 质量 ， 提 高 数据 挖掘 的 精度 和 性 能 。 


19.2.1 “填补 缺失 数据 


缺失 值 是 指 本 该 有 但 却 没有 的 数据 。 一 个 对 象 遗 漏 一 个 或 多 个 属性 值 并 不 少见 ,缺失 值 并 不 
意味 着 数据 有 错误 ， 其 产生 的 原因 多 种 多 样 。 

(1) 有 些 信息 暂时 无 法 获取 。 例 如 在 医疗 数据 库 中 ， 并 非 所 有 病人 的 所 有 临床 都 能 在 给 定 
的 时 间 内 得 到 ,这样 就 使 一 部 分 属性 值 空缺 出 来 。 有 些 信息 ( 如 年 龄 、 体 重 、 收 入 等 ) 则 是 由 于 
涉及 个 人 隐私 而 无 法 得 到 。 

(2 ) 某 些 属性 并 不 能 用 于 所 有 对 象 ， 即 对 于 某 个 对 象 来 说 ， 该 属性 值 是 不 存在 的 。 例 如 在 
申请 信用 卡 时 ,可 以 要 求 申 请 人 提供 驾驶 证 号 ， 没 有 轰 驶 证 的 申请 人 自然 使 该 字段 为 空 。 再 如 在 
做 市 场 调查 时 常常 会 碰 到 有 条 件 选 择 部 分 , 仅 当 被 调查 者 以 特定 方式 回答 前 面 问题 时 , 条 件 部 分 
才 需 要 填写 ， 但 在 存储 时 则 可 能 会 将 所 有 的 数据 全 部 存储 。 

(3 ) 有 些 信息 是 被 遗漏 的 。 造 成 遗漏 的 原因 或 是 输入 时 忘记 填写 或 对 数据 理解 错误 ;或 是 
数据 采集 设备 、 存 储 介质 、 传 输 媒体 的 故障 ; 或 是 人 为 因素 。 

(4) 有 些 信息 (被 认为 ) 是 不 重要 的 。 如 一 个 属性 的 取 值 与 给 定语 境 是 无 关 的 ,或 训练 数 
据 库 的 设计 者 并 不 在 乎 某 个 属性 的 取 值 ， 如 网 络 用 户 注册 时 许多 信息 是 空缺 的 。 

(5 ) 要 求 统计 的 时 间 窗 口 并 非 对 所 有 数据 都 适合 。 例 如 需要 统计 “客户 在 前 6 个 月 内 的 最 
大 存款 余额 "， 很 明显 ， 对 于 那些 建立 账户 尚 不 满 6 个 月 的 客户 来 说 ， 统 计 出 来 的 数值 与 想 要 得 
到 的 就 可 能 存在 差距 。 

(6 ) 有 些 数据 不 符合 格式 要 求 。 例 如 电话 格式 一 般 由 三 组 数字 组 成 ,其 中 3 ~4 个 编号 为 区 
域 代码 ,3 ~4 个 编号 为 交换 代码 ,4 个 编号 为 节点 。 当 某 些 记录 不 符合 这 些 格式 时 ， 就 可 以 认为 
是 一 种 无 效 的 记录 ， 从 而 造成 数据 缺失 。 
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在 许多 情况 下 ,缺失 值 在 数据 源 中 用 NULL 表示 。 然 而 NULL 有 时 是 可 接受 的 数值 ， 在 这 
种 情况 下 ， 数 值 为 空 而 不 是 缺失 ， 它 时 常 是 下 列 两 种 意思 之 一 : 

。 ”没有 充足 的 证 据 表明 该 字段 对 个 体 是 否 为 真 ,例如 没有 订阅 高 尔 夫 球 杂志 意味 着 此 人 不 

打 高 尔 夫 ， 但 不 能 证 明 。 

。 ” 重 秋 的 数据 中 ,对 于 此 人 没有 与 之 匹配 的 记录 。 

区 分 这 些 情形 是 有 用 的 。 一 种 方法 是 分 开 记 录 不 匹配 的 数据 , 创建 两 个 不 同 的 模型 集 ; 另 一 
种 方法 是 用 另外 的 数值 代替 NULL， 指 出 匹配 失败 是 在 记录 层次 还 是 在 字段 层次 。 

常用 的 缺失 数据 处 理 方法 有 如 下 几 种 。 

(1) 忽略 元 组 : 当 缺 少 类 标号 时 ， 通 常 采用 忽略 元 组 的 方法 。 但 要 注意 除非 元 组 中 空缺 值 
的 属性 较 多 ， 否 则 忽略 元 组 不 是 有 效 的 方法 。 

(2 ) 忽略 属性 列 : 如 果 该 属性 的 缺失 值 太 多 ,如 超过 80%， 则 在 整个 数据 集中 忽略 该 属性 。 

(3 ) 人 工 填写 空缺 值 ; 这 个 方法 较为 费时 ， 尤 其 是 数据 集 很 大 、 缺 少 的 值 很 多 时 ， 这 个 方 
法 有 可 能 行 不 通 。 

(4 ) 数据 填充 : 这 类 方法 是 用 一 定 的 值 去 填充 缺失 值 ， 通 常 基于 统计 学 原理 ， 根 据 决策 表 
中 其 余 对 象 取 值 的 分 布 情况 来 对 一 个 空 值 进行 填充 。 有 三 类 不 同 的 缺失 值 填充 策略 : 

全 用 全 局 常量 填充 空缺 值 : 用 同一 常数 替换 空缺 的 属性 值 。 此 方法 虽然 简单 ,但 可 能 会 对 数 

据 挖掘 程序 产生 误导 ， 根 据 填充 的 值 可 能 得 出 有 偏差 甚至 错误 的 结论 ， 因 此 应 谨慎 使 用 。 

@ 使 用 与 给 定 记录 属 同 一 类 的 所 有 样本 的 均值 或 众 数 填充 缺失 值 : 假设 某 数据 集 的 一 条 属于 

a 类 的 记录 在 A 属性 上 存在 缺失 值 , 那么 可 以 用 该 属性 上 属于 a 类 全 部 记录 的 平均 值 来 代 

将 该 缺失 值 。 如 可 用 相同 年 级 同学 的 平均 年 龄 替换 “年 龄 ”属性 中 的 空缺 值 。 

@ 用 可 能 值 来 代替 缺失 值 : 可 以 用 回归 分 析 、 聚 类 、 最 近邻 方法 或 决策 树 归纳 确定 最 有 可 能 

的 值 填补 空缺 值 。 例 如 利用 数据 集中 其 他 顾客 的 属性 , 可 以 构造 一 棵 决策 树 来 预测 相同 属 

性 的 缺失 值 ; 或 是 利用 相互 之 间 “接近 ” 的 对 象 具有 相似 的 预测 值 预测 其 最 近 的 邻居 对 象 

的 缺失 值 ， 但 要 注意 采用 合适 的 距离 定义 ， 否 则 会 产生 较 大 的 误差 。 

策略 @ 是 使 用 已 有 数据 的 大 部 分 信息 来 预测 缺失 值 ,效果 相对 较 好 , 但 代价 大 ; 策略 @ 实 现 
起 来 简单 、 效 率 高 ,效果 相对 不 错 。 但 无 论 以 哪 种 方式 填充 ， 都 无 法 避免 主观 因素 对 原 系统 的 影 
响 ， 任 何 一 个 替换 值 会 改变 变量 的 分 布 ， 并 且 可 能 导致 产生 拙劣 的 模型 。 

(5 ) 将 模型 拆 分 成 几 个 部 分 。 很 多 情况 下 ， 数 据 缺 失 是 由 于 系统 原因 。 较 好 的 解决 办 法 是 
将 模型 集 拆 分 成 几 个 部 分 ， 从 一 个 数据 集中 消去 缺失 字段 。 虽 然 一 个 数据 集中 存在 多 个 字段 , 但 
都 不 再 有 缺失 值 。 例 如 考虑 有 12 个 月 账单 数据 的 客户 标识 特征 ， 最 好 的 办 法 是 把 模型 集 拆 分 成 
两 部 分 ， 一 部 分 模型 集 包含 12 个 月 保有 期 客户 ， 另 一 个 包含 最 近 的 客户 。 


19.2.2 ”消除 噪声 数据 


噪声 数据 是 指 看 起 来 正确 但 实际 上 不 正确 的 属性 值 , 噪声 是 测量 变量 的 随机 偏差 , 产生 的 原 
因 有 多 种 , 可 能 是 数据 收集 的 设备 故障 , 也 可 能 是 数据 录入 过 程 中 人 的 朴 忽 或 是 数据 传输 过 程 中 
的 错误 等 。 

数据 挖掘 中 使 用 的 数据 并 不 是 为 了 数据 挖 气 而 收集 的 。 在 最 初 收集 数据 时 , 数据 的 某 些 方面 
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可 能 并 不 重要 , 所 以 留 下 空白 或 没有 被 检查 。 这 不 会 对 收集 数据 的 初衷 造成 影响 , 但 当 这 些 数据 
用 于 数据 挖掘 时 , 错误 和 省 略 的 部 分 立刻 变 得 相当 重要 。 例如 银行 并 不 真正 需要 知道 客户 的 年 龄 ， 
所 以 它们 的 数据 库 中 也 许 会 存在 许多 缺失 或 不 正确 的 年 龄 值 , 但 在 数据 挖掘 中 得 到 的 规则 中 , 年 
龄 有 可 能 会 是 一 种 重要 的 特征 。 

噪声 数据 往往 是 离 群 值 ， 所 以 很 多 情况 下 可 以 标识 之 。 但 有 时 噪声 数据 可 能 是 隐 含 的 模式 。 

一 般 可 以 采用 以 下 方法 消除 之 。 

(1) 分 箱 : 分 箱 方法 是 通过 考察 “近邻 ”对 象 来 平滑 存储 的 数据 值 。 平 滑 时 可 以 按 箱 均值 
( 箱 中 数据 的 均值 代替 每 一 个 值 ) 箱 中 位 数 ( 用 中 位 数 蔡 换 箱 中 的 每 一 个 数据 )、 箱 边界 ( 最 大 
或 最 小 ) 值 (将 箱 中 的 每 一 个 值 用 与 其 接近 的 那个 边 值 蔡 换 )。 一 般 来 说 ， 宽 度 越 大 ， 平 滑 效果 
越 好 。 箱 可 以 是 等 宽 的 ， 每 个 箱 的 取 值 区 间 是 一 个 常量 。 

(2 ) 聚 类 : 由 于 同一 类 具有 高 度 的 相似 性 ， 所 以 通过 聚 类 可 以 发 现 离 群 点 即 噪声 。 删 除 离 
群 点 即 可 平滑 数据 。 

(3 ) 回归 : 可 以 用 由 数据 拟 合 的 函数 来 平滑 数据 。 

(4 ) 计算 机 与 人 工 检查 结合 : 可 以 通过 计算 机 和 人 工 检查 结合 的 方法 来 识别 孤立 点 。 但 要 
注意 的 是 孤立 点 既 可 能 是 噪声 , 也 可 能 包含 有 用 的 信息 。 计 算 机 将 差异 程度 大 于 阔 值 的 模式 记录 
到 一 个 表 中 ， 通 过 审查 表 中 的 模式 可 以 识别 真正 的 噪声 。 

在 噪声 数据 中 ， 有 两 种 极端 的 字段 需要 特殊 处 理 : 取 值 几乎 相同 和 几乎 都 不 同 的 字段 。 

只 有 一 个 取 值 或 几乎 只 有 一 个 取 值 的 字段 , 包含 的 信息 非常 少 , 对 于 数据 挖掘 目的 而 言 , 应 
该 忽略 这 些 字 段 。 但 在 忽略 这 些 字 段 之 前 , 应 该 了 解 为 什么 会 出 现 如 此 倾斜 的 分 布 ， 它 反映 了 对 
应 于 商业 的 何 种 事件 。 经 验 表 明 ， 如 果 列 中 95%~99% 的 数值 相同 ， 在 孤立 情况 下 ， 如 果 不 进行 
一 些 处 理 ， 该 列 可 能 毫 无 用 处 。 

每 一 行 或 几乎 每 一 行 取 不 同 值 的 分 类 属性 字段 ( 例如 客户 姓名 、 地 址 、 电 话 号 码 、 身 份 证 号 、 
学 号 和 车 牌号 ) 虽然 可 唯一 (或 非常 接近 ) 识别 每 一 行 (每 位 客户 )， 包 含 着 丰富 的 信息 ( 如 学 
号 包含 了 入 学 年 份 和 专业 信息 )， 但 它们 不 会 在 数据 挖掘 中 被 直接 使 用 ， 这 时 需要 借助 领域 知识 
从 这 些 字段 中 提取 重要 特征 作为 衍生 变量 。 


19.2.3 ”实现 数据 一 致 性 


对 于 数据 存在 的 不 一 致 的 数据 ， 可 以 参照 其 他 资料 ( 如 原始 记录 等 ) 人 为 地 加 以 更 正 ， 还 可 
以 使 用 用 来 纠正 编码 不 一 致 问题 的 程序 ， 也 可 以 用 知识 工程 工具 来 检测 不 符合 条 件 约束 的 数据 。 


19.3 ”数据 集成 与 转换 


海量 数据 集 往往 涉及 多 个 数据 源 ， 因此 , 在 数据 挖 据 前 需要 合并 这 些 数 据 源 存 储 的 数据 。 如 
果 原 始 数据 的 形式 不 适合 数据 挖掘 算法 需要 ， 就 要 对 数据 进行 变换 。 


19.3.1 ”数据 集成 


数据 集成 是 指 将 不 同 数据 源 的 数据 集中 存放 在 一 个 统一 的 数据 存储 ( 如 数据 仓库 ) 中 。 在 集 
成 的 过 程 中 由 于 语义 上 存在 的 差异 会 造成 数据 的 不 一 致 ， 并 且 存在 元 余 ， 需 要 进行 消除 。 
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数据 不 一 致 的 原因 是 它们 所 指 的 是 不 同 的 对 象 。 不 同 表 中 可 能 使 用 不 同名 称 来 指示 同一 属 
性 ; 或 者 是 不 同 的 名 称 表示 同一 属性 。 数 据 不 一 致 的 另 一 种 表现 形式 是 数据 值 冲突 ， 因 为 表示 方 
法 、 比 例 或 编码 的 不 同 , 现实 世界 的 同一 实体 在 不 同 的 数据 库 中 的 属性 值 可 能 不 同 。 例 如 重量 属 
性 在 一 个 系统 中 可 能 以 公制 单位 存放 ， 而 在 另 一 个 系统 中 以 英制 单位 存放 ; 对 于 连锁 旅馆 , 不 同 
城市 的 房价 不 仅 可 能 涉及 不 同 货币 ， 而 且 可 能 涉及 不 同 的 服务 和 税 。 

宛 余 是 数据 集成 的 另 一 个 重要 问题 。 如 果 一 个 属性 能 从 另 一 个 表 “ 导 出 ”， 那 这 个 属性 就 是 
元 余 的 。 不 一 致 的 属性 或 伪 命 名 也 可 以 导致 数据 元 余 。 利 用 相关 分 析 可 以 发 现 一 些 元 余 的 问题 。 

除了 元 余 外 ， 在 元 组 级 还 应 当 检 测 “ 重 复 ” 数 据 ， 即 存在 两 个 或 多 个 相同 的 元 组 。 

数据 集成 中 涉及 的 重要 问题 是 检测 与 处 理 冲突 数据 。 解决 冲突 的 简单 办 法 是 指定 某 一 系统 在 
冲突 中 占据 主导 地 位 。 
19.3.2 ”数据 转换 

数据 转换 的 目的 是 使 数据 和 将 来 要 建立 的 模型 拟 合 得 更 好 , 形成 适合 挖掘 的 形式 , 它 主 要 涉 
及 以 下 的 工作 。 

(1) 平滑 : 可 以 采用 分 箱 、 聚 类 等 方法 去 掉 数 据 中 的 噪声 。 

(2 ) 聚集 : 对 数据 进行 汇总 和 聚集 。 

(3 ) 数据 概 化 : 使 用 概念 分 层 ， 用 高 层次 概念 蔡 换 低层 次 “原始 ”数据 。 

(4) 规范 化 : 数值 规范 化 是 将 原来 的 度量 转换 为 无 量 纲 的 值 ， 是 通过 将 属性 数据 按 比 例 缩 
放 , 使 之 落 入 一 个 小 的 特定 区 间 来 规范 属性 。 对 于 基于 距离 的 方法 ,规范 化 可 以 帮助 平衡 具有 较 
大 初始 值 域 的 属性 与 具有 较 小 初始 值 域 人 属性 可 比 性 。 

规范 化 的 方法 有 以 下 几 种 。 

@ 最 小 一 最 大 规范 化 

最 小 一 最 大 规范 化 对 原始 数据 进行 线性 变换 , 保持 原始 数据 值 之 间 的 线性 关系 , 其 计算 公式 为 























， x—miny 。 5 
x = 一 一 一 一 (mew_ maxs—new_ miny)+new_miny 
Imax4 一 min4 


式 中 : max4、mim4、new_max4、new_miny 分 别 为 原始 及 变换 后 属性 值 中 的 最 大 与 最 小 值 ; x 为 
属性 值 。 

最 小 一 最 大 规范 化 保持 原 有 数据 之 间 的 联系 。 如 果 今 后 的 输入 落 在 原始 数据 值 域 之 外 , 该 方 
法 将 面临 “越界 错误 ”。 

@ z-score 规范 化 ( 零 均值 规范 化 ) 

把 属性 4 的 值 x 基于 4 的 均值 和 标准 差 规范 化 为 wx， 由 下 式 计算 


'_ x—mean_4 





第 
8 


其 中 : mean A 和 分别 为 属性 4 的 均值 和 标准 差 。 在 实际 应 用 中 , 该 方法 常用 于 由 于 难以 预知 
该 属性 的 最 大 最 小 值 ， 或 者 由 于 某 些 孤 立 点 的 存在 的 场合 。 

@ 小 数 定 标 规范 化 

通过 移动 属性 4 的 小 数 点 的 位 置 进行 规范 化 。 小 数 点 的 移动 位 数 依赖 于 4 的 最 大 绝对 值 。 
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将 4 的 值 x 按 下 式 公式 规 范 化 为 x 


其 中 : j 是 使 max(Ix')<1 的 最 小 整数 。 

经 过 规范 化 处 理 后 ,数据 会 发 有 很 大 的 变化 。 因 此 要 保留 规范 化 参数 ,以便 将 来 的 数据 可 以 
用 一 致 的 方法 规范 化 。 

(5 ) 属性 构造 ( 特征 构造 ): 构造 新 属性 并 将 其 添加 到 属性 集中 有 助 于 数据 挖掘 过 程 。 例 如 
要 判断 电信 客户 的 消费 倾向 及 忠诚 度 时 ,因为 收集 的 原始 特征 集 不 可 能 直接 包含 这 类 , 所 以 就 需 
要 进行 构造 。 在 人 脸 识别 中 , 由 于 依照 相片 集合 对 人 脸 进行 分 类 存在 着 许多 困难 , 大 量 的 分 类 算 
法 都 不 合适 。 如 果 我 们 对 相片 数据 进行 处 理 , 提供 诸如 某 些 类 型 的 边 和 区 域 等 与 人 脸 高 度 相关 的 
较 高 层次 的 特征 ， 则 更 多 的 分 类 技术 可 以 应 用 于 该 领域 。 

特征 构造 在 不 同 的 领域 其 应 用 方式 不 同 。 一 旦 数据 挖掘 用 于 一 个 相对 较 新 的 领域 时 , 一 个 关 
键 任务 就 是 如 何 构造 新 的 特征 。 特 征 的 构造 需要 对 领域 知识 和 数据 进行 深入 理解 。 


19.4 ”数据 归 约 与 压缩 


19.4.1 数据 归 约 


在 数据 挖掘 的 实践 应 用 中 , 有 许多 情况 需要 对 大 数据 进行 科学 的 筛选 和 抽样 而 不 是 对 大 数 
据 本 身 直 接应 用 数据 挖掘 算法 。 这 主要 是 因为 对 大 数据 进行 数据 挖掘 时 间 长 、 成 本 高 ,而 且 大 数 
据 的 全 集 的 数据 质量 并 不 能 保证 ,混杂 成 分 太 多 , 主题 特征 不 易 清晰 地 差别 ,直接 影响 数据 挖掘 
的 效果 ， 所 以 需要 对 大 数据 集 进行 提炼 ， 即 数据 归 约 。 

在 数据 归 约 过 程 中 ,要 注意 归 约 后 的 数据 要 有 代表 性 ， 要 能 代表 数据 总 休 的 特征 。 为 此 , 在 
归 约 过 程 要 注意 数据 不 能 有 偏 、 不 能 受到 干扰 以 及 产生 偏 移 。 

数据 归 约 技术 可 以 用 来 得 到 数据 集 的 归 约 表 
示 ， 虽 然 数据 规模 缩小 了 ， 但 仍 接近 于 原 数据 的 完 
整 性 。 这 样 ， 在 归 约 后 的 数据 集 上 进行 挖 握 效 率 更 ee 





























高 ， 并 能 产生 相同 或 几乎 相同 ) 的 分 析 结 果 。 3 
常用 的 数据 归 约 策略 有 以 下 几 种 。 办 公用 品 | 568 
商 SSS SS 
1. 数据 立方 体 电话 |750 
数据 立方 体 可 以 存放 多 维 聚 集 信息 , 图 191 “|150 
即 为 某 商店 每 类 商品 在 各 部 门 年 销售 多 维 数据 ,每 打印 机 | 50 
个 单元 存 入 一 个 聚集 值 ,对 应 于 多 维 空间 的 一 个 数 ET 
据点 。 最 低层 的 数据 立方 体 称 为 基本 方 体 , 最 高 层 年 份 
抽象 的 数据 立方 体 称 为 顶点 方 体 .用 户 感 兴趣 的 是 


图 19.1 企业 销售 数据 立方 体 
基本 方 休 。 
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2. 维 归 约 ( 特征 选择 ) 


用 于 数据 分 析 的 数据 可 能 包含 很 多 属性 , 其 中 一 些 属性 与 数据 挖 气 任 务 并 不 相关 。 不 相关 或 
元 余 的 属性 增加 了 数据 量 ， 可 能 会 减 慢 数 据 挖掘 进程 。 

维 归 约 通过 删除 与 数据 挖 握 不 相关 的 属性 ( 维 )， 达 到 减少 数据 量 的 目的 。 通 常 使 用 属性 子 
集 选 择 方法 ， 找 出 最 小 属性 集 ， 使 数据 概率 分 布 尽 可 能 接近 原始 数据 分 布 。 通 过 维 归 约 能 减少 模 
式 上 的 属性 数目 ， 使 模式 更 易于 理解 。 

在 实际 应 用 中 首先 要 尽量 多 列 一 些 可 能 有 影响 的 因素 ,然后 通过 数据 处 理 , 第 选 出 作用 较 大 
的 特征 ,删除 影响 不 大 的 特征 ， 从 而 建立 数学 模型 。 特 征 筛选 的 第 一 步 是 分 析 每 个 特征 考察 特 
征 间 的 相关 性 ， 以 及 特征 与 目标 相关 性 。 各 特征 与 目标 值 之 间 的 相关 系数 为 下 时， 其 中 专 入 
分 别 表示 第 ;个 样品 的 第 j 特征 值 和 目标 值 ，x 和 了 分 别 表示 第 ;个 特征 和 所 有 样本 目标 值 的 均 
值 ， 可 以 根据 R_ (yx ) 绝对 值 的 大 小 来 判断 各 特征 的 重要 性 。 

TO -Go -x) 


i=l 


RO 
|20 -yD yx) 
和 1 大 =1 


要 注意 的 是 对 于 相关 系数 小 的 特征 ， 还 需要 用 其 他 信息 才能 决定 是 否 能 删除 。 
尽管 使 用 常识 或 领域 知识 可 以 消除 一 些 不 相关 的 或 元 余 的 特征 , 但 是 选择 最 佳 的 特征 子 集 通 
常 需要 系统 的 方法 。 特 征 选择 的 理想 方法 是 将 所 有 可 能 的 特征 子 集 作 为 感 兴趣 的 数据 算法 的 输 
入 , 然后 选取 产生 最 好 结果 的 子 集 。 这 种 方法 的 优点 是 反映 了 最 终 使 用 的 数据 挖掘 算 法 的 目的 和 
偏爱 。 但 由 于 子 集 数目 太 大 (2" 个 )， 在 大 部 分 情况 下 这 种 方法 行 不 通 。 
根据 特征 选择 过 程 与 后 续 数据 挖掘 算法 的 关联 ， 特 征 选择 方法 可 分 为 过 滤 、 封 装 和 俱 入 。 
。 “过滤 方法 是 指使 用 某 种 独立 于 数据 挖掘 任务 的 方法 , 在 数据 挖掘 算法 运行 之 前 进行 特征 
选择 ， 即 先 过 滤 特 征集 和 一 个 最 有 价值 的 特征 子 集 。 
。 ”封闭 方法 是 将 学 习 方 法 的 结果 作为 特征 子 集 评价 准则 的 一 部 分 ,根据 算法 生成 规则 的 分 
类 精度 选择 特征 子 集 。 该 类 算法 具有 使 得 生成 规则 分 类 精度 高 的 优点 , 但 特征 选择 效率 
较 低 。 
。 ”插入 方法 是 将 特征 选择 作为 数据 挖 据 算 法 的 一 部 分 自然 地 出 现 。 在 数据 挖 据 算 法 运行 期 
间 ， 算 法 本 身 决 定 使 用 哪些 属性 和 忽略 哪些 特征 ， 如 决策 树 C4.5 分 类 算法 。 
根据 是 否 用 到 类 信息 的 指导 ， 特 征 选择 过 程 可 分 为 监督 式 、 无 监督 式 和 半 监 督 式 特征 选择 。 
。 ”监督 式 特征 选择 使 用 类 信息 来 进行 指导 ,通过 度量 类 信息 与 特征 之 间 的 相互 关系 来 确定 
子 集 大 小 。 
。 ”无 监督 式 特征 选择 是 在 没有 类 信息 的 指导 下 , 使 用 样本 聚 类 或 特征 聚 类 对 聚 类 过 程 中 的 
特征 贡献 度 进行 评估 ， 然 后 根据 贡献 度 的 大 小 进行 特征 选择 。 
。 ” 半 监 督 式 特征 选择 是 使 用 少量 的 有 类 信息 的 数据 和 无 类 信息 的 大 量 数据 组 合成 数据 集 
而 进行 特征 选择 。 
特征 选择 过 程 一 般 由 4 部 分 组 成 : 子 集 评估 度量 、 控 制 新 的 特征 子 集 产生 的 搜索 策略 、 停 止 
策略 验证 过 程 。 
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特征 子 集 选 择 的 策略 主要 包括 以 下 技术 。 

。 ”逐步 向 前 选择 : 以 空 属性 集 作为 归 约 集 开 始 , 确定 原 属性 集中 最 好 的 属性 并 将 它 添加 到 
归 约 集中 。 在 其 后 的 每 次 迭代 中 ， 将 剩 下 的 原 属性 集中 最 好 的 属性 添加 到 该 集合 中 。 

。 ”逐步 向 后 删除 : 由 整个 属性 集 开 始 ,在 每 一 步 删除 尚 在 属性 集中 最 差 的 属性 。 

。 ”向 前 选择 和 向 后 删除 的 结合 : 将 逐步 向 前 选择 和 向 后 删除 方法 结合 在 一 起 , 每 一 步 选 择 
一 个 最 好 的 属性 ， 并 在 剩余 属性 中 删除 一 个 最 差 的 属性 。 

。 ”决策 树 归纳 : 构造 一 个 类 似 于 流程 图 的 结构 ， 其 中 每 个 内 部 节点 表示 一 个 属性 的 测试 ， 
每 个 分 支 对 应 于 测试 的 一 个 输出 ; 每 个 外 部 节点 表示 一 个 类 预测 , 在 每 个 节点 , 算法 选 
择 “ 最 好 ”的 属性 ， 将 数据 划分 成 类 。 如 图 19.2 所 示 。 





初始 属性 集 
ne ls Wr hi Res A 





图 19. 2 决策 树 归纳 

在 特征 搜索 过 程 中 , 一 个 不 可 或 缺 的 环节 是 评估 步 又, 即 与 已 经 考虑 的 其 他 子 集 相 比 , 评价 
当前 的 子 集 。 评 估 策 略 需要 一 种 评估 度量 以 确定 属性 特征 子 集 的 质量 。 对 于 过 滤 方 法 ， 这 种 度量 
试图 预测 实际 的 数据 挖掘 算 法 在 给 定 的 属性 集 上 执行 的 效果 。 常用 的 度量 方法 有 相关 度量 、 关 联 
规则 、 粗 米 集 等 。 对 于 封装 方法 ,评估 包括 实际 运行 目标 数据 应 用 , 子 集 评估 函数 通常 用 于 度量 
数据 挖 据 结 果 的 标准 。 

评估 的 基础 主要 有 三 类 : 距离 、 概 率 密 度 函 数 和 炳 函数 。 

(1 ) 基于 分 类 误差 的 可 分 性 判 据 。 

一 个 理想 的 模式 识别 系统 应 能 以 最 低 的 错误 率 分 类 未 知 模式 。 贝 叶 斯 最 小 错误 率 决策 的 类 概 
率 误差 计算 公式 由 下 式 给 出 





e= [0 -maxP(o, | DPC 


其 中 : P (wj) 是 第 i 类 后 验 概率 ; P ( 革 ) 是 联合 概率 密度 函数 。 但 由 于 在 一 般 情况 下 ， 误 差 
不 易 计算 ,所 以 利用 此 方法 提取 特征 难以 实际 进行 。 

(2 ) 基于 距离 的 可 分 性 判 据 。 
基于 距离 的 可 分 性 判 据 的 出 发 点 是 各 类 样本 间 的 距离 越 大 , 类 内 散 度 越 小 , 则 类 别 的 可 分 性 
越 好 。 令 D( x ) 为 样本 i 与 j 之 间 的 距离 , 则 根据 不 同 的 定义 , 有 欧 氏 距离 、 明 考 斯 基 ( Minkoski ) 
距离 、 马 氏 距 离 、 切 比 雪夫 距离 等 。 

为 了 同时 反映 类 内 距离 小 和 类 间距 离 大 的 要 求 ， 可 以 构成 准则 函数 
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J _ HS) 
ml) 
式 中 : 及 、Jw 分 别 为 类 间 和 类 内 总 平均 平方 距离 ，S。、Sw 分 别 为 类 间 和 类 内 总 散射 甜 阵 ; ww 为 矩 
阵 的 迹 。 
由 于 友 的 值 与 坐标 系统 的 选择 有 关 ， 因 此 也 可 以 采用 以 下 的 准则 函数 
五 =1rsyS) 
= S) 
7 =tr(S75,) 
J =In(S7 5,) 


式 中 : 5, 为 所 有 样本 之 间 的 总 平均 平方 距离 。 
(3 ) 基于 概率 依赖 度量 的 可 分 性 判 据 。 
模式 向 量 荆 和 类 别 w 的 依赖 性 可 以 由 条 件 概率 密度 函数 已 ( wo 民 ) (天 12,…:m ) 和 联合 概率 
密度 P (六) 之 间 的 距离 来 度量 。 
Chemoff 距离 : Je=-In|P'(X|o)P™(X|o,)dr 
Bhattacharyya 距离 : J =-In|P(X|@)P(X |o,) dr 
(4 ) 基于 炉 度 量 的 概率 可 分 性 判 据 。 
粹 的 一 般 性 定义 为 








M 
六 C= wf P°(X|@) P(A)dY 
i=l 


a 取 不 同 值 可 以 有 不 同 的 焙 定 义 ， 如 x= 1 称 为 Shannon 焙 ，a=2 则 得 到 平方 粹 。 

与 概率 依赖 度 类 似 ， 焙 度量 也 能 估计 模式 向 量 环 和 类 别 w; 之 间 的 依赖 性 。 

在 大 规模 数据 集中 , 由 于 特征 数目 很 多 ,可 能 的 子 集 数量 也 会 很 大 , 考察 所 有 的 子 集 可 能 不 
现实 , 因此 需要 某 种 停止 搜索 标准 。 其 策略 通常 涉及 一 个 或 多 个 条 件 : 迭代 次 数 ， 子 集 评估 的 度 
量 值 是 否 最 优 或 超过 给 定 的 阔 值 。 一 个 特定 大 小 的 子 集 是 否 已 经 达到 最 优 , 其 子 集 大 小 和 评估 标 
准 是 否 同时 达到 最 优 , 使 用 搜索 策略 的 选择 是 否 得 到 改进 等 , 这 些 都 是 特征 选择 过 程 中 需要 考虑 
的 问题 。 

特征 的 选择 在 数据 挖掘 中 尽管 研究 很 多 , 但 尚 无 一 通用 的 理论 可 以 遵循 。 下 列 是 几 种 常用 的 
方法 。 

(1 ) 偏差 权重 法 。 
对 于 分 类 而 言 ， 偏 差 大 的 变量 比 偏差 小 的 变量 更 重要 ， 特 征 的 标准 偏差 为 








式 中 : x 为 上 个 样本 的 均值 。 


很 明显 同一 类 样本 之 间 的 方差 即 类 内 方差 ( 5;7 ) 较 小 , 而 类 与 类 之 间 的 方差 即 类 间 方 差 ( So。 ) 
较 大 ， 因 此 可 定义 权重 因子 
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显然 ,wj 越 大 ， 特 征 j 就 越 重 要 ， 应 当 优 先 选 择 。 
(2 ) Fisher 比率 法 。 


特征 7 的 Fisher 比率 五 为 
2 3 此 Sa 


式 中 : xm 和 za 分 别 为 类 1 和 类 2 中 变量 的 均值 ， 9 和 5; 分 别 是 类 1 和 类 2 中 特征 的 标准 偏 
差 。 万 值 越 大 ， 意 味 着 此 特征 越 重要 ， 应 优先 选择 。 





(3 ) 概率 比率 法 。 

概率 比率 贸 的 定义 为 
R -lg 也 
y= 《> 


式 中 : Pi 和 Pj 分别 为 第 j 个 特征 在 类 1 和 类 2 中 出 现 的 概率 。 根 据 此 值 的 大 小 可 判定 : 如 果 某 
特征 在 2 类 分 类 中 均 不 出 现 或 出 现 次 数 很 少 或 出 现 概率 相等 ， 可 以 剔除 。 Rj 绝对 值 越 大 ,表明 该 
特征 量 在 同类 中 概率 差 最 大 ， 应 优先 选择 。 

(4) 逐步 判别 法 。 

逐步 判别 分 析 为 模式 识别 的 一 种 方法 , 同时 ,该 种 方法 亦 用 于 变量 的 选择 , 特别 是 两 变量 共 
线 ， 即 相关 系数 较 大 时 ， 用 逐步 判别 的 分 析 可 以 消去 不 合适 的 变量 。 

(5 ) 学 习 机 械 法 。 

学 习 机 械 法 也 可 以 用 于 特征 的 选取 。 在 特征 选取 时 ,首先 将 判别 函数 系数 赋予 任意 初 值 ， 如 
均 为 “1"， 然 后 ,逐步 校正 ， 直 到 不 能 够 进一步 改善 为 止 。 再 将 值 均 赋予 “-1”， 重 复 上 述 过 程 ， 
也 直到 不 能 够 进一步 改善 为 止 。 在 两 次 结果 中 ,剔除 符号 有 改变 的 特征 ,重复 上 述 全 部 过 程 , 直 
到 再 无 特征 可 剔除 为 止 。 

特征 子 集 一 旦 选 定 , 就 需要 根据 数据 挖掘 任务 进行 目标 验证 , 最 直接 的 方法 就 是 将 特征 全 集 
的 结果 与 该 子 集 上 得 到 的 结果 进行 比较 (一般 从 分 类 性 能 上 进行 比较 )。 如 果 理 想 的 话 ， 特 征 子 
集 产生 的 结果 将 比 使 用 特征 全 集 产生 的 结果 要 好 , 或 者 几乎 一 样 好 。 类 似 的 验证 方法 还 可 以 将 不 
同 特征 选择 算法 得 到 的 特征 子 集 性 能 进行 综合 比较 。 

特征 选择 的 算法 有 很 多 ， 下 面 即 为 一 种 非 搜索 型 的 特征 选择 方法 ( Fast Correlation Based 
Filter，FCBF )。 在 这 里 利用 互信 息 的 方法 来 度量 两 个 分 类 特征 之 间 的 相关 性 。 用 Po 表示 特征 x 
取 i 个 值 x 的 概率 ， P(xiby) 表 示 特 征 y 取 值 为 ;时 特征 x 取 值 为 x 的 概率 。x 的 信息 焙 Ux) 及 已 
知 变量 y 后 x 的 条 件 信息 炉 Htxly) 的 计算 方法 如 下 

H(x)= -2 P(x)log, P(x) 


H(x| y=-5 Py)D PG |y,)1ogs PG |y)) 
i 


变量 x、y 之 间 的 互信 息 MI(x;y) 可 按 以 下 公式 计算 
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PCo) 
MI(x,y)= H(x)—H' = -HI = 1 
CD= HY- HID = #0) -HO Y= TP) oe FO 
用 如 下 公式 来 度量 特征 x 与 特征 y 之 间 的 相关 性 
__ 2MI(x,») 
Sn Wd) 











采用 FCBF 算法 , 求 得 每 个 特征 与 目标 特征 C( 即 类 ) 的 相关 性 Sim (xsC)，, 找 出 Sim (xsC) 5 
( 靖 值 ) 的 特征 ， 然 后 再 在 这 些 特征 中 寻找 那些 较 大 相关 性 的 特征 ( 即 支配 性 特征 ) 直到 删除 所 
有 的 宛 余 特征 。 


19.4.2 ”数据 压缩 


通过 对 数据 的 压缩 ( 也 可 以 称 作 特 征 提取 ) 可 以 把 数据 存储 在 很 小 的 空间 中 。 数 据 仓 库 尤 其 
需要 数据 压缩 ， 因 为 数据 仓库 中 的 数据 很 少 更 新 。 

特征 提取 作为 一 种 特征 空间 维 数 压 缩 方 法 , 其 主要 特点 是 在 于 通过 变换 的 方法 实现 对 原始 特 
征 的 计算 ， 使 变换 后 的 二 次 特征 可 以 去 掉 一 些 分 量 ( 特征 维 数 )。 

对 于 个 原始 特征 构成 的 特征 向 量 二 cx … zx， 特征 提取 就 是 对 x 作 变 换 ， 产 生 q 维 向 
量 y yy ，d<n， 即 








yx 
其 中 : 到 = twa 称 为 特征 提取 矩阵 或 简称 变换 矩阵 。 基 于 可 分 性 判 气 的 特征 提取 就 是 在 一 定 的 可 
分 性 判 据 下 ， 如 何 求 最 优 的 变换 矩阵 于 。 

如 果 可 以 不 丢失 任何 信息 地 还 原 压缩 数据 , 那么 使 用 的 数据 压缩 技术 就 是 无 损 的 ,相反 就 是 
有 损 的 。 主 成 分 分 析 及 小 波 变换 等 方法 是 常用 的 无 损 的 数据 压缩 技术 。 


19.4.3 ”数值 归 约 

数值 归 约 技术 利用 替代 数据 以 “ 较 小 的 ”数据 表示 形式 来 达到 减少 数据 量 的 目的 , 其 常用 的 
方法 如 下 。 

1. 回归 和 对 数 线性 模型 


回归 是 研究 自 变量 与 因 变 量 之 间 关 系 的 分 析 , 目的 在 于 根据 已 知 自 变量 来 估计 和 预测 因 变 量 
的 总 平均 值 。 回 归 和 对 数 线性 模型 可 以 近似 拟 合 给 定 的 数据 。 线性 回归 是 最 简单 的 回归 形式 。 对 
数 线性 模型 可 用 于 估计 具有 离散 属性 值 的 基本 方 体 中 每 个 格 的 概率 分 布 。 该 模型 允许 由 较 低 阶 的 
数据 立方 体 构造 较 高 阶 的 数据 立方 体 。 





2. 直方 图 


数据 总 结 的 最 好 方法 是 提供 数据 的 直方 图 , 可 以 从 中 获得 对 数据 的 更 高 层次 的 理解 。 无 论 对 
于 近似 稀 琉 、 稠 密 数 据 、 高 倾斜 数据 或 一 致 的 数据 ， 直 方 图 都 是 一 种 有 效 的 方法 。 
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3. 聚 类 


在 数据 归 约 时 ,用 数据 的 聚 类 表示 蔡 换 实际 数据 。 如 果 数 据 能 够 组 织 成 不 同 的 聚 类 , 聚 类 技 
术 是 一 种 很 有 效 的 方法 。 在 保证 样本 代表 整个 数据 集 的 前 提 下 , 在 样本 数据 上 应 用 数据 挖掘 算法 ， 
显然 比 直接 在 整个 数据 集 上 进行 数据 挖掘 效率 更 高 。 

聚 类 的 “质量 ”可 以 用 “直径 ”或 “质心 ”表示 , 直径 表示 一 个 聚 类 中 任意 两 个 对 象 间 的 最 
大 距离 ;质心 表示 由 聚 类 中 心 到 每 个 聚 类 对 象 的 平均 距离 。 


4. 抽样 


抽样 也 可 以 作为 一 种 数据 归 约 技术 ， 它 用 较 小 的 随机 样本 ( 子 集 ) 表示 大 的 数据 集 。 假 设 海 
量 数 据 D 包含 Y 个 对 象 。 可 以 用 如 下 方法 对 忆 抽 样 。 

(1 ) 不 放 回 简单 随机 抽样 : 从 数据 集 D 中 的 入 个 对 象 中 逐个 不 放 回 地 抽取 个 (m<N), 抽 
取 D 中 任何 对 象 的 概率 均 为 WN。 一 个 对 象 一 旦 被 抽取 ， 就 不 可 能 再 被 抽 到 。 

(2 ) 放 回 简单 随机 抽样 :从 六 个 对 象 中 抽取 一 个 对 象 ,每 次 抽取 时 各 对 象 被 抽取 的 概率 为 UN， 
将 抽 到 的 对 象 记录 后 再 放 回 总 体 ， 重 复 上 述 过 程 次。 很 明显 ， 一 个 对 象 有 可 能 被 多 次 抽 到 。 

由 于 数据 挖掘 时 所 面临 的 是 海量 数据 ， 因 此 上 述 两 个 抽样 方法 的 差异 可 以 忽略 。 

(3 ) 整 群 抽样 : 抽样 的 单位 不 是 单个 的 个 体 ， 而 是 成 群 的 个 体 。 它 是 从 总 体 中 随机 抽取 一 
些小 的 群体 ,然后 由 这 些小 群体 内 的 所 有 元 素 构成 调查 样本 。 对 小 群体 的 抽取 可 以 采用 简单 随机 
抽样 、 系 统 抽 样 和 分 层 抽样 等 方法 。 

整 群 抽样 方法 简便 易 行 ,节省 费用 , 非常 适合 在 难以 确定 总 体 抽样 的 情况 。 但 如 果 样 本 分 布 
比较 集中 ， 此 方法 的 代表 性 较 差 。 

(4) 分 层 抽 样 : 把 总 体 分 成 不 重 簿 的 层 ， 从 每 一 层 分 别 抽取 样本 ， 然 后 由 各 层 子 样本 组 成 
总 体 的 样本 。 

分 层 抽样 是 一 种 常用 的 抽样 技术 , 它 不 仅 可 以 对 总 体 目标 量 进行 估计 , 也 可 以 对 各 层 的 目标 
量 进行 估计 。 例 如 可 以 对 一 个 顾客 数据 集 按 照 年 龄 进行 分 层 ， 再 在 每 个 年 龄 组 中 进行 随机 选择 ， 
从 而 确保 了 最 终 获得 分 成 抽样 数据 子 集中 的 年 龄 分 布 具 有 代表 性 。 

(5 ) 多 阶 抽样 : 按照 元 素 的 隶属 关系 和 层次 关系 ， 把 抽样 过 程 分 为 几 个 阶段 进行 。 适 用 于 
总 体 规模 特别 大 , 或 者 总 体 分 布 范围 特别 广 的 情况 。 但 此 方法 会 产生 误差 。 可 以 通过 增加 初始 阶 
段 的 样本 数 ， 适 当地 减少 末尾 阶段 的 样本 数 来 减少 误差 。 

(6) 系统 抽样 : 将 总 体 中 的 对 象 按 某 种 顺序 排列 ， 在 规定 的 范围 内 随机 抽取 一 个 或 一 组 对 
象 ， 然 后 按 一 定 规则 确定 其 他 样本 对 象 。 


19.5 ”数值 数据 的 概念 分 层 与 离散 化 


19.5.1 ”概念 分 层 


概念 分 层 ( 简称 概 化 ) 定义 了 一 组 由 低层 概念 集 到 高 层 概念 集 的 映射 。 它 允许 在 各 种 抽象 级 
别 上 处 理 数据 ， 从 而 在 多 个 抽象 层 上 发 现 知识 。 
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概念 分 层 结构 可 以 用 树 来 表示 , 树 的 每 个 节点 代表 一 个 概念 。 树 根 节点 表示 给 定 维 的 最 一 般 
的 值 。 通 常 ， 概 念 分 层 结构 中 的 层 自 顶 向 下 编号 ， 树 根 节点 为 0 层 ， 其 余 类 推 。 如 图 19.3 所 示 。 











位 置 层 0 
国家 层 1 
省 或 洲 ，| 伊利 诺 仇 州 层 2 














城市 “| 杭州 | …| 嘉兴 | | 南京 | …| 无 锡 | | 纽约 | …| 布 法 罗 | | 芝加哥 | 层 3 
图 19.3 “位 置 ” 维 的 概念 分 层 
通过 数据 概 化 可 以 让 用 户 在 更 有 意义 、 更 清晰 的 抽象 层 观察 数据 ， 从 中 发 现 更 易于 理解 的 
模式 ; 也 可 以 压缩 数据 ， 在 压缩 的 数据 集 上 进行 数据 挖 据 更 为 有 效 。 
19.5.2 ”概念 分 层 的 类 型 
概念 分 层 包 括 模式 分 层 、 集 合 分 组 分 层 、 由 操作 导出 的 分 层 和 基于 规则 的 分 层 等 类 型 。 





1. 模式 分 层 
模式 分 层 是 数据 库 模式 属性 间 的 全 序 或 偏 序 。 通 常情 况 下 , 一 个 模式 分 层 指定 数据 仓库 的 一 
个 维 ， 维 的 属性 也 可 以 组 织 成 偏 序 ， 形 成 一 个 格 。 如 图 19.4 所 示 就 是 关于 时 间 的 分 层 。 
年 
季度 
月 从 和 


日 期 
图 19. 4 概念 分 层 的 格 结构 


2. 集合 分 组 分 层 

集合 分 组 分 层 将 给 定 属性 或 维 的 值 组 织 成 常量 组 或 区 间 , 也 就 是 通过 维 或 属性 值 的 离散 化 或 
分 组 来 定义 分 层 。 组 之 间 可 以 定义 或 偏 序 。 当 两 种 类 型 的 分 层 结构 结合 时 ， 集 合 分 组 分 层 可 以 用 
于 精练 或 丰富 模式 定义 的 分 层 。 

3. 由 操作 导出 的 分 层 

由 操作 导出 的 分 层 是 根据 用 户 、 专 家 或 数据 挖掘 系统 指明 的 操作 分 层 。 操 作 可 能 包括 对 信息 
编码 串 的 解码 ， 从 复杂 数据 对 象 提取 信息 和 数据 聚 类 等 。 

例如 ， 从 一 个 E-mail 地 址 aa@cs.jlu.cn 中 发 现 偏 序 “用 户 名 < 院 系 < 学 校 < 国 家 ”， 形 成 了 
E-mail 地 址 的 一 个 概念 分 层 。 
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4. 基于 规则 的 分 层 


基于 规则 的 分 层 是 指 用 一 组 规则 定义 整个 概念 分 层 或 概念 分 层 的 某 一 部 分 , 可 以 根据 当前 数 
据 库 和 规则 定义 动态 地 计算 分 层 。 


19.5.3 ”数值 数据 离散 化 


数据 离散 化 即将 连续 性 数据 ( 数值 数据 ) 转换 成 离散 性 数据 。 由 于 数据 挖掘 算法 只 能 应 用 于 
离散 型 数据 ,使 得 离散 化 处 理 成 为 必要 ,而且 离 散 化 的 结果 将 会 减少 给 定 连续 变量 值 的 个 数 , 减 
少 和 简化 原来 的 数据 。 

离散 化 处 理 一 般 经 过 以 下 几 个 步 又。 

(1 ) 对 变量 进行 排序 。 

(2 ) 选择 基 个 点 作为 候选 断 点 ， 根 据 给 定 的 条 件 ， 判 断 此 断 点 是 否 满足 要 求 。 

(3 ) 若 候选 断 点 满足 离散 化 的 要 求 ， 则 对 数据 集 进行 分 裂 或 合并 ， 再 选择 下 一 个 候选 点 。 
(4 ) 重复 以 上 步骤 ,直至 满足 停止 准则 ， 从 而 得 到 最 终 的 离散 结果 。 

可 以 根据 对 数据 分 布 的 统计 分 析 构造 数据 属性 的 概念 分 层 , 在 此 基础 上 对 数据 离散 化 。 常 用 
的 方法 有 分 箱 、 直 方 图 分 析 、 队 类 分 析 、 基 于 焙 的 离散 化 和 通过 “自然 划分 ”的 数据 分 段 等 。 

数据 平 请 的 分 箱 方法 也 是 一 种 数值 离散 化 的 方法 。 通 过 将 数据 分 布 到 箱 中 , 并 用 箱 中 数据 的 
均值 或 中 位 数 蔡 换 箱 中 的 每 个 值 ， 可 以 将 属性 值 离散 化 。 不 断 用 这 个 方法 划分 结果 ,就 能 产生 概 

直方 图 也 可 以 用 于 数据 离散 化 。 在 等 宽 直 方 图 中 , 将 值 划分 成 相等 的 部 分 或 区 间 。 在 等 深 直 
方 图 中 ， 对 值 进行 划分 使 每 一 部 分 包括 相同 数目 的 样本 。 

案 类 分 析 算 法 将 数据 划分 成 若干 个 徐 。 每 个 徐 形 成 概念 层 的 一 个 节点 , 所 有 的 节点 在 同一 概念 
层 。 将 每 个 徐 进 一 步 分 成 若干 子 徐 ， 形 成 较 低 的 概念 层 。 子 簇 聚集 在 一 起 ， 就 形成 较 高 的 概念 层 。 

焙 是 信息 学 中 的 一 种 度量 ,用 来 递归 地 划分 数据 属性 ， 使 之 分 层 离散 化 。 给 定 一 个 数据 元 组 
的 集合 8S， 基 于 焙 的 概念 对 属性 4 离散 化 的 方法 如 下 。 

(1) 4 的 每 个 值 是 一 个 潜在 的 区 间 边 界 或 贱 值 T。 例 如 4 的 值 x 可 以 将 样本 8 划分 成 分 别 
满足 条 件 4<x 和 4x 的 两 个 子 集 ， 从 而 实现 一 个 二 元 离散 化 。 
(2 ) 给 定 5S， 选择 在 划分 后 信息 增益 最 大 的 值 作为 羡 值 。 

设 5S, 和 5s 分别 对 应 于 5 中 满足 条 件 4<T 和 4 宇 T 的 样本 ， 给 定 m 个 类 ,pi; 是 类 i 在 5 中 的 

概率 ， 其 值 为 5 中 含 类 i 的 样本 数 除 以 5 中 的 样本 总 数 。5; 的 焙 函 数 Ent 的 定义 如 下 




















Ent(S,) =-3 p, log(p,) 


i=l 


Ent(S?) 的 值 的 计算 与 上 类 似 。 
划分 的 信息 增益 定义 为 
sl 地 | 
I(S.T)= 后 | Ent(S,)+ po 
选择 信息 增益 较 大 的 了 作为 国 值 。 
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(3 ) 把 确定 阔 值 的 过 程 递归 地 用 于 每 个 划分 ， 直 至 满足 某 个 终止 条 件 为 止 ， 例 如 
Ent(S$)—171(S,7T)>6 

基于 焙 的 离散 化 可 以 压缩 数据 量 。 由 于 使 用 类 信息 , 就 更 有 可 能 将 区 间 边 界定 义 在 准确 位 置 ， 
有 助 于 提高 分 类 的 准确 性 。 

通过 自然 划分 分 段 也 可 以 使 概念 分 层 。 
19.5.4 “分 类 数据 的 概念 分 层 

分 类 数据 是 离散 数据 。 一 个 分 类 属性 具有 有 限 个 取 值 , 值 之 间 是 无 序 的 。 针 对 分 类 数据 的 概 
念 分 层 方法 有 如 下 几 种 。 

(1 ) 由 用 户 或 领域 专家 在 模式 级 给 出 属性 的 部 分 序 : 分 类 属性 或 维 的 概念 分 层 涉及 一 组 属 
性 。 由 用 户 或 专家 在 模式 级 给 出 属性 的 部 分 序 或 全 序 ， 可 以 很 容易 地 定义 概念 分 层 。 

(2 ) 通过 显 层 数据 分 组 给 出 分 层 结构 : 这 是 人 工 定义 概念 分 层 结构 。 

(3 ) 只 说 明 属性 集 ， 不 说 明 它们 的 偏 序 ， 用 户 可 以 说 明 一 个 属性 集 ， 形 成 概念 分 层 ， 但 并 
不 显示 说 明 它们 的 偏 序 。 系 统 自动 地 产生 属性 的 序 ， 构 造 有 意义 的 概念 分 层 。 

(4 ) 只 说 明 部 分 属性 值 ， 在 定义 分 层 时 ， 用 户 可 能 只 说 明了 相关 属性 的 一 小 部 分 。 为 了 处 
理 这 种 部 分 说 明 的 分 层 结构 , 有 必要 在 数据 库 模式 中 嵌入 数据 语义 , 把 语义 密切 相关 的 属性 拥 绑 
在 一 起 。 这 样 一 个 属性 的 说 明 可 以 触发 整个 语义 相关 的 属性 组 ， 从 而 形成 一 个 完整 的 分 层 结构 。 


19.6 例题 
例 4.1 某 公司 对 应 聘 人 员 进 行 能 力 测试 , 测试 成 绩 如 表 19.1 所 示 。 计算 数据 集 的 相应 统计 量 。 




















表 19.1 应 聘 人 员 测 试 成 绩 


64 


80 81 
82 92 93 
3 100 100 


解 : 
各 统计 量 计算 如 下 : 


>> x =[64 67 70 72 74 76 76 79 80' 81782 82 83°85 86 88 91 91 92 933; 








93 93 95 95 95 97 97 99 100 100;102 104 106 106 107 108 108 
2 T2161 228103 12 2 SS 

>> dts (x) 

均值 : 97.68 方差 : 306.9567 标准 差 : 17.5202 极 差 : 69 变异 系数 : 17.9363 

偏 度 : 0.087711 上 峰 度 : 2.1895 


>> fws (Xx) 
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四 分 位 极 差 : 29 


83 ”上 四 分 位 数 : 112 





中 位 数 : 96 下 四 分 位 数 


均值 : 96.75 下 截断 点 : 39.5 上 截断 点 : 155.5 














soo 图 (图 19.5) 


>>qqs (X) 
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$ 经 验 分 布 函数 图 (图 19.8) 


>> scdfplot (x) 


频率 直方 图 
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图 19.6 频率 直方 图 


图 19.5 QQ 图 


经 验 分 布 函数 


Pe ep 


盒 形 图 
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经 验 分 布 函 数 图 


图 19. 8 


盒 形 图 


图 19.7 











$ 茎 叶 图 





>> jyt (x) 
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L100 0'02 4 60671788 

0 S224 60899 

L200 3 5 6 

T3003 

例 4.2 对 下 列 数 据 进 行规 范 化 处 理 。 

data=[0.0390 0.9800 46.2000 6.3200; 0.0510 0.5800 32.9000 4.8500; 
0.0090 0.8000 50.9000 6.4800; 0.0420 0.9200 55.5000 6.2700; 
0.0260 1.5600 43.2000 5.4500; 0.0340 0.7400 59.2000 7.1300; 
0.0160 0.7500 41.6000 4.5600; 0.0190 0.8200 33.2000 7.0600; 
0.0370 0.9400 36.8000 6.2100; 0.0510 0.8700 33.7000 6.1700; 
0.0710 1.1300 31.4000 7.1900; 0.0550 0.8700 35.9000 5.5300]; 


解 : 
>> datal=guiyi (data,1); $ 归 一 化 函数 ， 求 z-score 规范 化 
>> data2=guiyi range (data, [0 1]) % 最 小 一 最 大 规范 化 


例 4.3 图 19.9 为 一 模拟 信号 图 试用 小 波 分 析 对 其 进行 解析 。 














0 1 2 3 4 6 芳 8 9 10 


5 
时 间 


图 19.9 原始 信号 图 
解 : 
>> x=linspace(0,10,1000); 
>>y=25*exp (- (x-5.7) .^2/ (2*0.5^2) )+30*exp (- (Xx-4.3) .^2/ (2*0.3^2))+20*exp (- 
(X=356) "2/(2*0-2^2)) +19*exp(= (X=3:0) =-*2/(2*0-3*2))> $ 原 始 信 号 模拟 
>> [c,1]=wavedec(y,7,'sym6'); s 小 波 分 解 
>> d7=wrcoef('d',c,1,'sym6"',7); 
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>> d6=wrcoef("'d',c,1,'sym6",6); 

>> d5=wrcoef("'d',c,1,'sym6",5); 

根据 小 波 分 析 , 不 同 尺度 下 的 近似 系数 和 细节 系数 代表 着 原始 信号 中 的 不 同 频率 成 分 。 最 高 
频率 的 成 分 往往 是 噪声 信号 , 最 低频 率 的 成 分 往往 是 基线 或 背景 信号 ， 而 频率 介 于 噪声 和 夫 线 的 
成 分 则 代表 了 信号 的 有 用 信息 。 

从 计算 结果 可 知 ， 小 波 分 解 得 的 d6 细节 系数 基本 上 能 代表 原 图 中 的 有 用 信息 (如 图 19.10 所 
示 )， 可 以 用 它 作 进一步 的 定量 或 定性 的 。 























直 原始 信号 









































图 19.10 计算 结果 图 
例 4.4 对 例 4.2 中 的 数据 利用 主 成 分 分 析 进 行 降 维 处 理 。 


解 : 

>>data=[0.0390 0.9800 46.2000 6.3200; 0.0510 0.5800 32.9000 4.8500; 
0.0090 0.8000 50.9000 6.4800; 0.0420 0.9200 55.5000 6.2700; 
0.0260 1.5600 43.2000 5.4500; 0.0340 0.7400 59.2000 7.1300; 
0.0160 0.7500 41.6000 4.5600; 0.0190 0.8200 33.2000 7.0600; 
0.0370 0.9400 36.8000 6.2100; 0.0510 0.8700 33.7000 6.1700; 
0.0710 1.1300 31.4000 7.1900; 0.0550 0.8700 35.9000 5.5300]; 


>> y=myprincomp]l (sample); $ 可 得 到 三 个 主 成 分 ， 也 即 降 了 一 维 


例 4.5 特征 变量 的 选择 可 以 用 多 种 方法 , 其 中 ReliefF 算法 是 较为 常用 的 方法 。 它 是 根据 各 
个 特征 和 类 别 的 相关 性 赋予 特征 不 同 的 权重 , 权重 小 于 某 个 靖 值 的 特征 将 被 移 除 。 算法 从 训练 集 
刀 中 随机 选择 一 个 样本 尺 ， 然 后 从 和 R 同类 的 样本 中 寻找 最 近邻 样本 囊 ， 称 为 Near Hit， 从 和 RR 
不 同类 的 样本 中 寻找 最 近邻 样本 M， 称 为 NearMiss， 然 后 根据 以 下 规则 更 新 每 个 特征 的 权重 








立 diff(4,R,H,) 


W(A)=W(4A) -二 — PO ydiff(4 RM,(C)]/ mk 


mk czdas( 1— p(class(R)) 
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式 中 : diffA.Ri.R?) 表 示 样 本 Ri 和 样本 Rs 在 特征 4 上 的 差 ， 其 计算 如 下 : 


全 全 | RIA]- Rl[A] | if Ais continuous 
diff ALR LR,) = max(A)—min(A) 
“a if Ais discrete and R,[A]=R,[A] 
1 if Ais discrete and R[A]# R,[A] 


特征 的 权重 越 大 ， 表 示 该 特征 的 分 类 能 力 越 强 ; 反之 ， 表 示 该 特征 分 类 能 力 越 弱 。ReliefF 算 
法 的 运行 时 间 随 着 样本 的 抽样 次 数 m 和 原始 特征 个 数 N 的 增加 线性 增加 ， 因 而 运行 效率 非常 高 。 

利用 此 算法 对 来 自 UCI 机 器 学 习 数 据 库 ( http://archive.ics.uci.edu/ml/ ) 中 的 Breast Cancer 
Wisconsin (Original) Data Set ( 威斯康星 州 乳腺 癌 数 据 集 ) 进行 变量 选择 。 

解 : 


>> Clear 





>> a=dlmread('D:\ 数 据 1.txt');D=a(:,2:end-1);class L=a(:,end); k=8;m=80; 

>> typeD=[0 0 000000 0]; 

>> W=reliefF (D, class L,m,k,typeD) gs 可 以 多 次 求解 , 然后 求 平 均值 

W=0.2323 0.2153 0.1872 0.1396 0.1236 0.1163 0.1075 0.0536 0.0497 % 权 重 
6.0000 8.0000 1.0000 3.0000 7.0000 2.0000 4.0000 5.0000 9.0000 $ 特 征 序列 


按照 从 小 到 大 的 顺序 排列 ， 可 知 ， 各 个 属性 的 权重 关系 如 下 : 
属性 9< 属 性 5< 属 性 7< 属 性 4< 属 性 2< 属 性 3< 属 性 8< 属 性 1< 属 性 6 


从 上 面 的 特征 权重 可 以 看 出 , 属性 6 裸 核 大 小 是 最 主要 的 影响 因素 , 说 明 乳 腺 癌 患 者 的 症状 
最 先 表现 了 裸 核 大 小 上 , 将 直接 导致 裸 核 大 小 的 变化 , 其 次 是 属性 1 和 属性 8 等 , 后 几 个 属性 权 
重大 小 接近 ， 但 是 从 多 次 计算 规律 来 看 ， 还 是 能 够 说 明 其 中 不 同 的 重要 程度 。 
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解 : 
NMEF 算法 的 迭代 公式 如 下 : 
Ww 全 
(THE ) 
HH 人 
(TD 
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目标 函数 为 


lr -m= 0, -rH),) 





当 且 仅 当 WV= WH 时 目标 函数 为 0， 得 到 近似 分 解 的 最 优 解 。 
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输入 输出 关联 法 进行 计算 ,计算 方法 如 下 : 
CP = Dx A) xP) |xsign(y() —y(7) 
环卫 


式 中 : x( 局 、x, 有 为 i、j 个 样本 的 归 一 化 后 的 第 个 属性 值 ，yG)、y0) 为 对 应 的 目标 值 。 
试 利用 此 法 对 Iris 数据 进行 分 析 。 
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之 <3555 1.6891 3.4683 37119 
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(2 ) 相反 , 如 果 一 开始 效果 就 不 好 , 则 依次 加 入 未 选 属 性 中 最 重要 的 一 个 , 直至 效果 变 好 为 止 。 

例 4.8 ”相关 分 析 在 属性 选择 中 得 到 了 广泛 应 用 ， 它 主要 是 通过 计算 各 类 相关 系数 、 包 检验 
等 过 程 来 推断 变量 间 是 否 存 在 相关 关系 。 

一 种 原料 来 自 三 个 不 同 的 地 区 , 原料 质量 被 分 成 三 个 不 同等 级 , 从 这 批 原料 中 随机 抽取 500 
件 进行 检验 , 得 到 如 表 19.2 所 示 的 结果 。 试 在 显著 性 水 平 a= 0.05 下 , 说 明 地 区 与 原料 间 是 否 存 
在 相关 关系 ， 如 有 ， 则 关系 的 强 弱 如 何 ? 
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表 19.2 不 同 地 区 的 原料 质量 检测 结果 











甲 地 区 丙 地 区 

一 级 52 50 

二 级 64 65 

三 级 24 74 

解 : 

此 类 问题 即 为 独立 性 检验 ， 是 x 检验 的 另 一 种 检验 方式 ， 它 用 来 检验 两 个 变量 间 是 否 存在 
联系 的 问题 。 

此 题 检 验 问题 的 原 假设 为 


H,:py= PP, Vi,j,l<i<r,l<i<s, 


式 中 : r 和 s 分别 为 变量 于 与 了 的 等 级 。 即 如 果 变 量 环 与 了 是 独立 的 ,或 者 说 是 没有 关系 ， 则 于 
和 了 的 联合 概率 应 该 等 于 工 和 了 的 边缘 概率 之 积 。 

则 根据 相应 统计 的 原理 ， 可 编程 计算 如 下 。 

>> x=[52 ‘60. .50764 9 .65724 52 74]7> 


>> [p,h,para]=mychi2 (x,'s'); 


>> p=5.4135e-004 概率 值 
>> b=1 $ 拒 绝 原 假设 ， 即 认为 地 区 和 原料 等 级 间 存 在 依赖 关系 
>>para= $ 从 各 相关 系数 可 看 出 ， 产 地 与 原料 等 级 间 的 相关 程度 不 同 
ph: 0.1991 外 相关 系数 
C: 0.1953 $ 列 联 相关 系数 
V: 0.1408 sV 相关 系数 


例 4.9 某 公司 在 一 项 议案 的 调查 中 ,得 到 如 表 19.3 所 示 的 列 联 表 。 问 哪些 因素 与 态度 有 关 ? 
哪些 因素 与 态度 无 关 ? 





表 19.3 ”调查 数据 
态度 (Z) 弃 权 
工种 (Y) 蓝领 白领 
性 别 (X) 
男 34 44 
女 44 53 





解 : 
此 例题 涉及 对 数 线性 模型 。 根 据 对 数 线性 模型 编程 计算 如 下 。 

>> Xl={[60 50;80 45]};x2={[95 40;105 41]};x3={[34 45;44 53]}; 
>> x=[x1 x2 x3]; 


>> [a,b,c,d]=mychi2 (x, 'm'); 
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计算 结果 如 表 19.4 所 示 : 
表 19.4 计算 结果 


(Rs 7 35.4077 35.5664 1 X,Y，Z 不 独立 





(XX YZ) 5 2.7813 2.7826 0 义 与 Y, Z 独 立 





(YY -Xz) 5 35.0923 35.1330 1 Y 与 X, Z 不 独立 





(CE 6 34.6628 34.4739 1 Z 与 X,Y 不 独立 





(XY XZ) 4 34.0410 34.0406 1 给 定义 ,YY 与 乙 不 独立 





(CR. ey 4 1.6893 1.6901 0 给 定 Y, X 与 乙 独立 


(RE 4 0 给 定 Z, 和 与 了 独立 











可 以 看 出 ， 无 法 抗拒 性 别 X 与 其 他 两 个 因素 的 独立 性 ， 这 表明 性 别 与 工种 以 及 性 别 与 态度 之 
间 都 没有 相关 性 , 然而 , 变量 与 Z 存在 交互 作用 , 也 即 不 同 工 种 的 职工 对 提案 的 态度 是 不 同 的 。 

例 4.10 在 属性 选择 过 程 中 , 秩 检验 是 一 种 常用 的 方法 。 a a 
统计 量 , 秩 的 检验 在 非 参数 估计 中 占有 极其 重要 的 地 位 ， 其 原因 一 是 秩 检 验 使 用 灵活 ， 易 于 在 各 
种 检验 问题 中 从 直观 出 发 构造 出 统计 量 来 ; 二 是 线性 秩 统计 量 有 完备 的 大 样本 理论 , 其 在 原 假设 
下 往往 与 分 布 无 关 ; 三 是 秩 检验 的 使 用 , 相对 于 其 他 方法 而 言 ， 计 算 上 不 是 很 复杂 ; 四 是 与 其 他 
常用 的 检验 方法 相 比 ， 性 能 并 不 差 。 

下 面试 用 Kmskal-Wallis 检验 法 分 析 Iris 数据 。 

解 : 

此 检验 的 统计 量 为 





人 
-sie ry 
式 中 : Ri、ni 为 各 组 的 秩 和 及 样本 个 数 ， 如 果 有 相同 的 秩 ， 则 采用 平均 秩 ; n 为 样本 的 总 数 。 如 
果 存 在 结 ( 即 秩 相等 )， 则 进行 修正 


H.= 


ce 


zy) 





式 中 : g 为 结 的 个 数 ; 为 相应 结 的 长 度 ( 即 样本 的 个 数 )。 
当 组 数 大 3， 且 每 组 例 数 mn 和 5， 可 查 万 界 值 表 得 到 p 值 ; 如 果 组 数 大 于 3， 则 互 近似 地 服 
从 于 自由 度 为 大 1 的 多 分 布 ， 可 查 X 界 限 值得 到 p 值 。 
当 p<0.05 时 ， 可 以 拒绝 原 假设 ， 即 各 组 的 数据 分 布 不 完全 相同 ， 从 而 可 推断 六 变 量 与 目标 
分 类 变量 了 具有 相关 性 。 
根据 以 上 原理 ， 编 程 计算 如 下 。 
>> a=dlmread ('D:\ 数 据 .txt'); 


D> =a Las 
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>>class=[ones (50,1);2*ones (50,1);3*ones (50,1)]; 
>> [p,h,d,z]=myrank (x,class); 
>> p=1.1102e-016 
>> h=1 
>> d=4.8692 1.0000 2.0000 % 两 两 总 体 间 差 异 的 检验 ， 说 明 组 间 的 差异 都 相对 较 大 
8.5785 1.0000 3.0000 
3.7093 2.0000 3.0000 
>> z=2.3940 % 标 准 正 态 分 布 的 分 位 数 
例 4.11 在 现实 的 数据 集中 , 往往 不 可 避免 地 会 存在 属性 值 缺 失 的 情况 , 而 且 可 能 发 生 在 生 
活 的 各 个 研究 领域 。 虽然 缺失 数据 的 存在 加 强 了 系统 表现 的 不 确定 性 , 使 得 这 种 不 确定 性 更 加 难 
以 把 握 , 但 包含 缺失 的 属性 值 或 者 不 完整 数据 集 仍然 包含 某 些 重要 的 信息 量 , 所 以 一 般 在 数据 挖 
据 前 ， 对 缺失 数据 的 处 理 显得 非常 重要 和 必要 。 
可 以 有 多 种 方法 对 缺失 的 数据 集 进行 处 理 , 基于 朴素 贝 叶 斯 分 类 方法 就 是 其 中 的 一 种 。 表 19.5 
为 一 个 简单 的 样本 数据 库 。 数 据 库 中 含有 15 条 记录 和 4 个 属性 : 分 别 是 Income、Age、Gender、 
HomeOwner， 其 中 缺失 属性 用 “? ”表示 。 试 预测 第 15 条 记录 中 的 缺失 数据 。 








表 19.5 样本 数据 库 
| ve | fe | Gr | rorome 
11 high >55 male yes 
12 ? 30-55 yes 


解 : 

在 应 用 贝 叶 斯 方法 进行 计算 时 ,首先 要 确定 属性 间 是 否 有 关联 。 如 果 属 性 间 相 互 独立 , 则 可 
以 用 朴素 贝 叶 斯 方法 进行 计算 ;如 果 属 性 间 有 关联 ， 则 计算 条 件 概率 与 朴素 贝 叶 斯 中 有 所 不 同 。 
为 了 更 加 合理 地 求 出 缺失 值 ， 既 要 考虑 到 属性 间 的 独立 性 ， 又 考虑 到 关联 性 ， 此 时 可 采用 双 尺 度 
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贝 叶 斯 公式 。 
给 定 一 个 数据 集 ， 有 六 条 记录 和 M 个 属性 五. 责 …-Gxe，cuco cz 是 某 互 样本 空间 的 划分 ， 
对 样本 空间 的 任 一 的 事件 屯 ， 都 有 








W=3 ,pcJ)PCElc) 


M-1 
plc IPGs Io) 
a 1 


商 三 El 


mW 
p,= plc) min(p(x |c1)) 
W 
0=p(X|c) 
Plc |X)'=p,+(p, -pi)x0 
球 即 为 全 概 公式 ,可 以 不 计算 出 结果 ; pi 为 朴素 贝 叶 斯 方法 的 计算 公式 , p; 为 一 般 贝 叶 斯 公 
式 的 改进 形式 ; 9 为 偏向 独立 或 者 关联 的 修正 因子 ， 其 值 越 小 ， 说 明 属 性 间 独 立 性 越 大 ; 反之 是 
据 此 可 以 编程 计算 , 从 计算 结果 可 看 出 ， 当 某 一 行 样 本 值 中 属性 值 缺 失 较 多 , 则 情况 较为 复 
杂 ， 需 考虑 多 种 情况 。 
>>data ={'low' '<30' "female' ‘no';'low' '<30' 'male' 'no';'low' '30-55' 'female 'yes' 
‘low' '30-55' 'female' 'no';'low' '>55' 'female' 'no';'high' '<30 'male' 'yes' 
'high' '30-55''female' 'yes';'high''30-55''male''yes';'high' '30-55' 'male' 'yes' 
"high' '30-55' "male'  'no'; 'high' '>55'  'male' 'yes'; '?'  '30-55' 'female' 'yes'; 
‘2 130-55''male' 'yes';'?'  '<30' 'female' '2'7'2' ‘'?' 'male' ‘no'}; 
>> y=datafill (data, '?'); 
>> y{l}=name: {'? ' '30-55' 'female' 'yes'} 
val: [0.5800 0.4200] 
pro: {'high'} s 最 大 可 能 的 取 值 
>> y{2}=name: {'?' '30-55' 'male' 'yes'} 
val: [0.9755 0.0245] 
pro: {'high'} 
>> y{3}{1}= name: {'?' '<30' 'female' 'no'} 
val: [0.0191 0.9809] 
pro: {'low'} 
>> y{3}{2}=name: {'?' '<30' 'female' 'yes'} 
val: [0.3027 0.6973] 
pro: {'low'} s 最 大 可 能 的 取 值 


例 4.12 在 数据 预 处 理 过 程 中 , 为 了 消除 随机 误差 和 噪声 , 经 常会 用 到 数据 滤波 及 数据 平滑 
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等 技术 。 滤 波 技术 中 最 简单 的 是 移动 均值 滤波 ,通过 在 预先 设 定 的 窗口 内 , 取 所 有 数据 的 权重 线 
性 均值 ， 即 得 滤波 数据 。 窗 口 的 大 小 定义 为 滤波 宽度 ， 随 着 窗口 的 移动 ， 即 得 经 滤波 后 的 一 系列 
数据 。 

在 移动 窗口 均值 滤波 中 , 所 有 原始 数据 均 给 以 相同 的 权重 , 这 样 往往 使 数据 扭曲 , 若 给 数据 
以 不 同 的 权重 ， 则 可 获得 更 有 效 的 数据 平滑 。Savitzky-golay 就 是 这 样 一 种 滤波 技术 ， 它 利用 高 
次 多 项 式 来 进行 数据 平滑 ,也 称 为 卷 积 平滑 。 它 能 够 保留 原始 数据 中 有 用 信息 , 是 消除 随机 噪声 
的 有 效 的 平滑 方法 。 

试 对 以 下 数据 进行 平滑 处 理 。 

x =[0.1580 0.2400 0.3750 0.4600 0.5860 0.6750 0.7200 0.7360 0.6700 0.5850 
0.4550 0.3130 0.2140 0.1100 0.0670 0.0370] 


解 : 

根据 数据 平滑 的 原理 ， 可 编程 计算 如 下 ， 

>>x=[0.158 0.240 0.375 0.460 0.586 0.675 0.720 0.736 0.670 0.585 0.455 0.313 
0.214 0.110 0.067 0.037]; 


>>y=moving (x,7,4); $% 七 点 四 次 平滑 ， 得 图 19.11 
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图 19.11 原始 数据 及 平滑 数据 曲线 
从 图 中 可 看 出 ， 原 始 数据 及 平滑 后 的 数据 曲线 几乎 重 簿 。 





例 4.13 在 数据 挖掘 的 实际 应 用 中 , 经 常会 遇 到 变量 缺失 问题 。 这 会 导致 一 些 不 能 处 理 缺 失 
值 的 分 析 方法 无 法 应 用 。 

当 在 处 理 含有 缺失 值 的 数据 时 ， 可 以 运用 以 下 几 种 最 常见 的 策略 。 

(1) 将 含有 缺失 值 的 样本 删除 。 

(2 ) 根据 变量 间 的 相关 关系 填补 缺失 值 ; 
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(3 ) 根据 样本 间 的 相似 性 填补 缺失 值 。 
(4 ) 使 用 能 够 处 理 缺失 值 数 据 的 工具 。 
试 对 给 出 的 数据 集 进行 缺失 数据 的 填补 。 

解 : 
>>al=importdata('D:\data.txt'); 
>>al=1.0e+004*al; 

>>y=filldata (al); 


按照 提示 进行 缺失 值 的 填补 。 需 要 说 明 的 是 ， 在 函数 中 缺失 值 用 NaN 代替 ， 也 可 以 用 其 他 
符号 来 表示 。 
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20.1 分 类 概述 


分 类 就 是 利用 训练 数据 中 学 习 到 的 规律 来 确定 未 知 样本 的 类 别 。 例 如 根据 银行 客户 信用 贷款 
的 历史 数据 ， 使 用 分 类 可 以 构造 “拖欠 贷款 ”和 “ 非 拖欠 贷款 ”两 类 客户 的 模型 ， 对 于 将 要 申请 
信用 贷款 的 客户 , 可 以 根据 分 类 模型 和 该 客户 的 特征 来 预测 该 客户 是 否 会 拖欠 贷款 , 从 而 决定 是 
否 同意 给 该 客户 贷款 。 

分 类 是 数据 挖掘 中 一 项 非常 重要 的 任务 ,在 各 个 领域 得 到 了 广泛 的 应 用 ,如 图 像 与 模式 识别 、 
医疗 诊断 、 故 障 诊断 以 及 金融 市 场 走势 分 类 等 。 在 银行 、 保 险 等 领域 中 ,可 以 利用 已 有 数据 建立 
分 类 模型 ,评估 客户 的 作用 等 级 ; 在 市 场 营销 中 , 可 以 利用 历史 数据 的 销售 数据 ， 预 测 某 些 商品 
是 否 可 以 销售 , 预测 广告 应 该 投放 到 哪些 区 域 , 及 预测 某 客户 是 否 会 成 为 商场 客户 从 而 实施 定点 
传单 投放 等 。 


20.2 方法 


数据 分 类 可 以 分 为 三 个 步骤 : @ 将 数据 集 划 分 为 两 部 分 ,一 部 分 作为 训练 集 ， 另 一 部 分 作 
为 测试 集 ; @ 通 过 分 析 训 练 集 的 特点 来 构造 分 类 模型 ，@ 对 测试 集 建立 的 分 类 模型 进行 分 类 ， 
评估 该 分 类 模型 的 分 类 准确 度 , 通常 使 用 分 类 准确 度 高 的 分 类 模型 对 类 标号 未 知 的 样本 数据 进 
行 分 类 。 

为 建立 模型 而 被 分 析 的 数据 集 称 为 训练 集 , 其 中 单个 元 组 称 为 训练 样本 。 每 个 训练 样本 包括 
多 个 属性 ,其 中 有 一 个 属性 决定 该 元 组 属于 一 个 预定 义 的 类 , 该 属性 称 为 类 标号 属性 或 目标 属性 ， 
其 他 属性 称 为 预测 属性 。 预 测 属性 按 性 质 分 ， 可 以 分 为 类 别 属 性 和 数值 属性 。 分 类 的 目的 就 是 对 
训练 样本 进行 分 析 , 根据 其 预测 属性 特征 ,得 出 一 个 精确 的 分 类 模型 ， 据 此 对 目标 属性 未 知 的 元 
组 进行 类 归属 判断 。 

分 类 器 的 构造 方法 有 基于 统计 的 方法 、 基 于 距离 的 算法 、 基 于 决策 树 的 算法 、 基 于 神经 网 络 
的 算法 、 基 于 规则 的 算法 及 组 合 技术 。 

基于 统计 的 算法 包括 回归 法 、 贝 叶 斯 分 类 等 ;基于 距离 ( 即 相似 度 ) 的 算法 有 K- 最 近邻 法 
等 ; 基于 决策 树 的 算法 有 ID3 、C4.5 和 C5.0、CART 等 ; 基于 神经 网 络 的 算法 主要 是 BP 算法 。 
除 此 外 ， 还 有 其 他 的 分 类 算法 ， 如 粗糙 集 、 支 持 向 量 机 算法 等 。 

不 同 的 分 类 器 有 不 同 的 特点 ， 分 类 器 的 评价 或 比较 尺度 有 以 下 一 些 关键 性 指标 。 

(1 ) 分 类 准确 率 。 指 的 是 模型 正确 地 预测 新 的 或 先前 未 见 过 的 数据 的 类 标号 的 能 力 。 通 常 
分 类 算法 寻找 的 是 分 类 准确 率 高 的 分 类 模型 。 影响 分 类 准确 率 的 因素 有 训练 数据 集 质 量 、 记 录 的 
数目 、 属 性 的 数目 、 属 性 中 的 信息 和 测试 数据 集 记 录 的 分 布 等 。 

评估 分 类 器 准确 率 常见 的 方法 有 保持 方法 、 留 一 法 、 自 展 法 、K- 折 交 验 证 等 。 保 持 方法 将 给 
定数 据 随 机 地 划分 成 两 个 独立 的 集合 ， 即 训练 集 和 测试 集 。 通 常 将 2/3 的 数据 分 配 到 训练 集 ， 其 
余 1/3 分 配 到 测试 集 。 首 先 使 用 训练 集 导出 分 类 法 ， 然 后 在 测试 集 上 评估 准确 度 。 随 机 子 选 样 是 
保持 方法 的 一 种 变形 ， 它 将 保持 方法 重复 上 次 ， 取 每 次 和 迭代 准确 度 的 平均 值 作为 总 体 精度 估计 。 

留 一 法 是 在 每 一 阶段 留 出 一 个 数据 点 , 但 每 个 数据 点 是 依次 留 出 的 , 所 以 测试 集 的 大 小 等 于 
整个 训练 集 的 大 小 。 每 个 仅 含 一 个 数据 点 的 测试 集 独 立 于 它 所 测试 的 模型 。 
展 法 是 利用 样本 和 从 样本 中 轮番 抽出 的 同样 容量 的 子 样 本 间 的 关系 , 对 未 知 的 真实 分 布 和 
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样本 的 关系 建 模 。 

在 所 折 交 验证 法 中 ,原始 数据 被 划分 成 个 互 不 相交 的 子 集 或 “ 折 ”51,52…,S， 每 个 折 的 大 
小 大 致 相等 ， 进 行 次 训练 和 测试 ， 在 第 i 次 迭代 时 ，S; 用 作 测 试 集 ， 其 余 的 子 集 都 用 于 训练 分 
类 法 。 分 类 准确 度 估计 是 次 迭代 正确 分 类 数据 除 以 初始 数据 的 样本 总 数 。 在 分 层 交 叉 验证 中 ， 
将 每 个 折 分 层 ， 使 得 每 个 折 中 样本 的 类 分 布 与 初始 数据 中 的 大 致 相同 。 

另外 还 应 注意 分 类 的 效果 一 般 和 数据 特点 有 关 ,， 有 的 数据 噪声 较 大 , 有 的 有 缺失 值 ， 有 的 分 
布 稀 琉 ， 有 的 字段 或 属性 间 相 关 性 强 ， 有 的 属性 是 离散 的 而 有 的 是 连续 值 或 混合 式 的 。 

(2 ) 计算 复杂 度 。 计 算 复杂 度 决定 着 算法 执行 的 和 占用 的 资源 ， 它 依赖 于 具体 的 实施 细节 
和 软 硬 件 环境 。 由 于 数据 挖掘 中 的 操作 对 象 是 海量 的 数据 库 , 因而 空间 和 时 间 的 复杂 度 将 是 非常 
重要 的 问题 。 

(3 ) 可 解释 性 。 分 类 结果 只 有 可 解释 性 好 及 容易 理解 ， 才 能 更 好 地 用 于 决策 支持 。 结 果 的 
可 解释 性 越 好 ， 算 法 受 欢 迎 的 程度 越 高 。 

(4) 可 扩展 性 。 可 扩展 性 是 指 在 给 定 内 存 和 磁盘 空间 等 可 用 的 系统 资源 的 前 提 下 ， 算 法 的 
运行 时 间 应 当 随 数据 库 大 小 线性 增加 。 

(5 ) 鲁 棒 性 。 它 是 指 在 数据 集中 含有 噪声 和 缺失 值 的 情况 下 ， 仍 具有 较 好 的 正确 分 类 数据 
的 能 力 。 
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元 + 灰 


。 ”召回 率 定义 为 正确 分 类 的 正 例 个 数 占 实际 正 例 个 数 的 比例 
;二 被 正确 分 类 的 正 例 样本 个 数 ___7P 
实际 正 例 样 本 个 数 TP+FN 
。 五 度量 表示 精度 和 召回 率 的 调和 平均 值 ; -了 ,五 度量 趋向 于 接近 精度 和 召回 率 


的 较 小 者 。 
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地 删除 含 负 类 的 元 组 来 减少 负 类 的 个 数 )， 减 少 类 别 不 平衡 的 程度 ; 二 是 引入 代价 敏感 机 制 ， 通 
过 代价 最 小 化 来 分 类 数据 。 

对 于 一 个 给 定 的 分 类 问题 ,没有 一 种 分 类 技术 总 是 产生 最 好 的 结果 ,每 种 技术 都 各 有 优 缺 点 。 
因此 可 以 采用 使 用 组 合 技术 来 提高 分 类 精度 , 也 即将 多 个 分 类 学 习 方 法 聚集 在 一 起 来 提高 分 类 准 
确 度 和 模型 的 稳定 性 。 

组 合 分 类 方法 并 不 是 简单 地 将 数据 集 在 多 个 不 同 分 类 器 上 重复 训练 ， 而 是 对 数据 集 进行 扰 
动 , 另外 , 一 个 分 类 器 训练 中 的 错误 还 可 以 被 下 一 个 分 类 器 利用 。 通 过 扰动 ， 分 类 器 能 学 习 到 更 
一 般 的 模型 ， 从 而 消除 单个 分 类 器 所 产生 的 偏差 ， 得 到 更 为 精确 的 模型 。 

组 合 分 类 技术 从 组 合 的 内 容 来 源 看 , 组 合 分 类 器 可 以 分 成 两 大 类 : 一 类 是 将 不 同 种 类 的 分 类 
器 进行 组 合 , 通过 组 合 弥补 各 种 分 类 器 间 的 不 足 。 该 类 分 类 方法 将 各 种 法 则 通过 某 种 算法 组 合 起 
来 ,以 得 出 各 个 分 类 法 的 优点 ， 从 而 达到 改善 和 提高 分 类 精度 的 目的 。 另 一 类 则 是 将 原始 数据 分 
为 若干 维度 , 对 不 同 维度 用 相同 分 类 器 进行 分 类 处 理 , 最 后 分 类 结果 进行 组 合 表决 获得 总 的 分 类 
结果 。 从 数学 上 看 ， 其 本 质 是 完成 高 维 空间 的 低 维 计算 并 做 成 非 线性 合成 。 

就 组 合 结构 而 言 , 组 合 分 类 器 可 分 为 级 联 和 并 联 两 种 形式 。 其 中 级 联结 构 是 将 单 分 类 器 的 输 
出 作为 另 一 个 单 分 类 器 的 输入 。 

并 联结 构 则 各 个 分 类 器 的 输出 是 相互 独立 的 ,最 后 再 利用 某 种 方法 将 相互 独立 的 分 类 输出 信 
息 组 合 起 来 ， 作 为 最 后 组 合 分 类 器 的 输出 。 一 般 而 言 ， 并 联结 构 更 具有 现实 意义 。 在 该 方式 下 各 
个 单 分 类 器 的 设计 完全 独立 , 不 必 考 虑 其 他 分 类 器 输出 信息 的 影响 , 有 利于 将 各 自 独立 的 子 分 类 
器 组 合成 一 个 高 效能 的 分 类 识别 系统 。 

在 实际 应 用 中 , 组 合 分 类 器 可 以 有 多 种 多 样 的 设计 。 例 如 对 数据 集 抽取 的 训练 集 , 可 以 是 随 
机 提取 一 个 , 作为 所 有 基 分 类 器 的 训练 集 , 也 可 以 分 别 从 数据 集中 有 放 回 地 随机 抽取 样本 容量 相 
同 (或 不 同 )、 但 数据 元 组 (个体 ) 不 同 的 训练 集 ， 分 别 来 训练 各 基 分 类 器 。 还 可 以 对 数据 集中 
的 个 体 , 赋予 不 同 权重 ， 使 个 体 被 抽 到 训练 集中 的 机 会 不 一 样 。 另 外 还 可 以 将 相同 的 表决 权 赋予 
每 个 基 分 类 器 , 也 可 以 对 它们 赋予 不 同 的 权重 ， 此 权重 大 小 可 根据 各 基 分 类 器 的 准确 率 确定 ,分 
类 器 准确 率 越 高 ， 它 的 表决 权重 就 越 高 。 

总 之 ,建立 组 合 分 类 器 时 ,其 基本 思想 是 ,使 各 分 类 器 能 够 互补 ， 能 更 好 地 降低 噪声 数据 和 
过 拟 合 的 影响 ， 使 组 合 分 类 器 的 准确 率 显著 高 于 各 基 分 类 器 。 

组 合 分 类 技术 克服 了 单一 分 类 器 的 诸多 缺点 ,如 对 样本 的 敏感 性 , 难以 提高 分 类 精度 等 , 但 
它 必 须 满足 基 分 类 器 之 间 的 完全 独立 的 条 件 , 在 实践 上 很 难 达到 这 个 条 件 。 虽 然 与 独立 分 类 器 相 
比 , 组 合 分 类 器 分 类 精度 会 有 一 定 程度 的 提高 , 但 提高 的 程度 不 大 , 甚至 出 现 组 合 后 分 类 精度 降 
低 的 情况 。 因 此 对 于 组 合 分 类 器 而 言 ， 各 子 分 类 器 的 组 合 策略 ， 即 采用 何 种 方式 将 各 子 分 类 器 集 
成 以 达到 各 子 分 类 器 分 类 结果 的 有 效 互 补 ， 成 为 利用 组 合 分 类 方法 进行 分 类 处 理 的 关键 。 

事实 上 没有 一 种 分 类 方法 对 于 所 有 数据 类 型 和 实际 领域 都 优 于 其 他 方法 ,所 以 选择 一 些 合适 
的 分 类 器 ， 搭 配 组 合 所 得 的 组 合 分 类 器 ， 通 常 都 能 使 其 性 能 超过 单个 分 类 器 。 

多 种 分 类 技术 已 在 相关 章节 做 了 介绍 ,在 此 不 再 重复 , 仅 介绍 各 类 算法 在 实际 分 类 中 的 应 用 。 
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20.3 ”例题 


例 4.14 为 了 解 耕地 的 污染 状况 与 水 平 , 从 3 块 由 不 同 水 质 灌溉 的 农田 里 各 取 6 个 样品 , 每 
个 样品 均 作 土壤 中 铜 、 包 、 气 、 锌 、 汞 和 硫化 物 等 7 个 变量 的 浓度 分 析 ， 原 始 数据 如 表 20.1 所 
示 。 试 确定 3 个 待 判 样品 所 属 组 别 。 























表 20.1 原始 数据 单位 : mg/kg 
xX3 X4 
0.480 14.360 25.210 
0.526 13.850 24.040 
第 一 组 3 3.525 0.086 24.400 49.300 
0.327 13.570 25.120 
0.386 14.500 25.900 
4.741 0.140 6.900 15.700 
4.223 0.340 3.800 7.100 
第 二 组 有 6.442 0.190 4.700 9.100 
16.234 0.390 3.400 5.400 
10.585 0.420 2.400 4.700 
48.621 0.082 2.057 3.847 
288.149 0.148 1.763 2.968 
第 三 组 k 316.604 0.317 1.453 2.432 
307.310 0.173 1.627 2.729 
82.170 0.105 1.217 2.188 
0.870 15.400 28.200 
待 判 样 2 0.340 5.200 9.000 
0.180 3.000 5.200 
解 : 
可 以 用 多 种 方法 对 数据 进行 分 类 。 
1. 辅助 方法 


利用 各 种 可 视 化 方法 对 数据 进行 显示 ， 从 中 可 粗略 地 分 析出 各 样品 在 空间 的 分 布 情况 。 
>> datal=guiyi (data,1); 


>>y=pdist (datal) ;z=linkage (y, 'single') ;h=dendrogram(z); $s 图 20 .1， 冰 柱 图 


>>star (data, 2); $ 图 20.2 
>>y=myNLM (data, 40); gs 图 20.3 
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图 20.3 非 线性 映射 图 
2. 分 类 方法 


>>sample=[3.7770 0.8700 15.4000 28.2000;62.8560 0.3400 5.2000 9.0000; 
3.2990 0.1800 3.0000 5.2000]; 
S> v=Crassify(sample ciasse ll ,el 20 2 2 2 2 3 3 3 3 
smatlab 自 有 函数 
WL 字 多 分 类 结果 
>>v kelasstify sample ciassall 1: 122 2 33.30 
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sk 一 近邻 法 函数 
Y=1 3 2 
>> Ttreefit(class ll 1 Ll 1 1 22 27 2 2073 37、3973073])% 决 生机 玫 并 
>> y=treeval (T, sample) 
$l 


>>result=fisher (classl, class2,class3, sample); 


result =1 2 2 $fisher 分 类 法 
>>result=bayes (classl,class2,class3, sample, 1) 

result=2 1 2 $ 基 于 最 小 错误 率 的 bayes 分 类 法 
>> y=BPclass ({classl;class2;class3},sample); ”$BP 神经 网 络 分 类 

y=1.6145 1.3820 3.0583 分 类 结果 , 即 2 1 3 


例 4.15 决策 树 算法 是 一 种 逼近 离散 函数 值 的 方法 。 它 是 一 种 典型 的 分 类 方法 ,首先 对 数据 
进行 处 理 , 利用 归纳 算法 生成 可 读 的 规则 和 决策 树 ， 然 后 使 用 决策 对 新 数据 进行 分 析 。 本 质 上 决 
策 树 是 通过 一 系列 规则 对 数据 进行 分 类 的 过 程 。 它 具有 分 类 精度 高 、 生 成 的 模式 简单 、 对 噪声 数 
据 有 很 好 的 健壮 性 等 优点 , 是 目前 应 用 最 为 广泛 的 归纳 推理 算法 之 一 , 在 数据 挖掘 中 受到 研究 者 
的 广泛 关注 。 

MATLAB 中 自 带 有 决策 树 算法 函数 ( classsregtree ), 现 利 用 此 函数 对 matlab 自 有 的 fisheriris 
数据 进行 分 类 分 析 。 

解 : 

>> a=load('fisheriris'); 

>> t=classregtree (meas，species, 'names',{'SL' 'SW' 'PL' 'PW'}); $ 决 策 树 分 类 


>> view (t); gs 显示 决策 树 ， 图 20 .4 





图 20. 4 决策 树 分 类 图 
例 4.16 在 分 类 (判别 ) 分 析 中 , 如果 样 品 集 为 高 维 数据 集 ， 则 建立 判别 函数 需要 大 量 的 计 
算 时 间 ， 而 且 由 于 有 关 和 矩阵 的 阶 数 太 高 ,使 解 的 精度 下 降 ， 甚 至 由 于 变量 的 不 独立 性 而 引起 计算 











上 的 困难 。 另 一 方面 ,由 于 不 太 重 要 的 变量 的 引入 , 产生 干扰 而 影响 判别 效果 ， 有 时 还 会 增加 错 
误 的 次 数 。 因 此 ,在 可 供 判别 的 自 变量 中 选 出 显著 性 变量 是 很 重要 的 。 
变量 的 选择 ( 即 降 维 ) 除 了 可 采用 粗糙 集 、 主 成 分 分 析 等 方法 外 , 还 可 以 进行 逐步 判别 分 析 ， 
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其 原理 与 逐步 回归 的 基本 思想 相似 ， 即 都 采用 “有 进 有 出 ”的 算法 ， 即 每 一 步 都 进行 检验 ,把 一 
个 “最 重要 ”的 变量 选 入 判别 式 ， 同 时 也 考虑 较 早 进入 判别 式 的 某 些 变量 ， 如 果 其 “重要 性 ”也 
随 着 其 后 一 些 变量 的 选 入 而 变化 ， 已 失去 原 有 的 重要 性 时 ( 被 某 些 变量 的 作用 所 代替 )， 应 把 它 
及 时 地 从 判别 式 中 剔除 出 去 ， 使 最 终 的 差别 式 仅仅 保留 “重要 ”的 变量 。 
从 经 验 得 知 , 可 以 有 病人 心电图 的 5 个 指标 来 区 分 健康 人 (类 1 ), 主动 脉 硬化 症 患者 (类 2 ) 
及 冠 心病 患者 (类 3 ) 三 类 人 。 其 经 验 数 据 如 表 20.2 所 示 。 试 找 出 判别 函数 ,一 个 病人 的 心电图 
中 ，x=7.40、xz=267.88 、xz=14.40、x=5.70、xs=10.66， 该 病人 应 归 入 哪 一 类 ? 
解 : 
根据 逐步 判别 的 原理 ， 可 编程 计算 如 下 。 


>>1oad mydata; 









































>>train={xl,x2,x3}7sample=[7.40 267.88 14.40 5.70 10.66]; 
>> [a,b,c]=stepclass (train, sample) ; $ 逐 步 判 别 函 数 
>> a=2 5 s 判 别 函数 中 的 变量 号 ， 即 第 2 个 及 第 5 个 属性 用 于 分 类 
b= q: [-0.7376 -1.1896 -1.5261] % 判 别 函数 中 的 系数 
CO [9-2963 L164467 16:7832] 
cl: [3x2 double] 
c=3 样品 的 分 类 结果 


表 20.2 经 验 数据 


类 别 a 
| sm | 200 | B23 | 5 736 

3.66 599 

606 6 

Gl 435 

521 379 

类 1 488 353 


4.11 260.25 14.72 5.36 10.02 
8.90 259.51 14.16 4.91 9.79 























273.84 5.15 8.79 
303.59 5.70 8.53 

231.03 5.72 6.15 

308.90 5.52 8.49 

258.69 4.79 7.16 

4.97 9.43 

类 2 5.32 11.32 
6.04 8.17 











$37 274.57 16.75 4.98 9.67 
9.89 409.42 19.47 Ed 10.49 
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13.72 
类 3 352.50 0. eh 11.00 
347.31 i 11.19 
189.56 E 5. 6.94 





测试 样本 
例 4.17 集成 学 习 法 是 将 多 个 分 类 方法 聚集 在 一 起 来 提高 分 类 准确 率 。 通常 一 个 集成 分 类 器 
的 分 类 性 能 会 好 于 单个 分 类 器 。 集 成 学 习 法 由 训练 数据 构建 一 组 基 分 类 器 , 然后 通过 对 每 个 基 分 
类 器 的 预测 进行 投票 来 进行 分 类 。 
构建 集成 分 类 器 的 方法 主要 包括 装 袋 ( bagging )、 提升 (boosting )、AdaBoost 算法 等 。 其 中 
AdaBoost 算法 是 由 Yoav Freund 和 Robert Schapire 提出 的 最 重要 的 集成 学 习 算法 , 该 算法 具有 可 
靠 的 理论 基础 、 精 确 的 分 类 精度 、 简 单 等 优点 。 
利用 该 算法 对 ionosphere 数据 集 进 行 分 类 。 
解 2 
AdaBoost 算法 的 伪 代 码 如 下 。 
国 数 : AdaBoost(D.7) 
输入 : 样本 数据 集 刀 ， 学 习 提升 轮 数 了 
输出 : 集成 分 类 器 H(x) 
(1) 初始 化 NN 个 样本 的 权重 W(x)=1N (二 1,2,…,N) 
(2) fortltoTdo 
(3 ) 根据 权重 t 的 分 布 ， 通 过 对 D 进行 有 放 回 抽样 产生 训练 集 D， 
(4) 在 D, 上 训练 产生 一 个 弱 学 习 器 ( 基 分 类 器 ) hh 
(5 ) 用 加 对 原 训练 集 D 中 所 有 样本 进行 分 类 ， 并 度量 hh 的 误差 











a -Em * 中 | 
(如 果 ( 玉 (Co) 关 帮 为 真 ， 则 To) 关 六 )=1， 否 则 为 0) 
(6 ) 让 er>0.5then 
(7 ) 重新 将 权重 初始 化 为 1V， 转 步骤 ( 3 ) 重 试 
(8) endif 
(9 ) 决定 的 权重 











( 10 ) 更 新 权重 分 布 
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WO ss of hw)=5 WOexpC-0y,h(%)) 


W,(D)=— x 
2 exp(@,) if h(n) A 2 


t 


其 中 : 马 是 一 个 正规 因子 ， 用 来 确保 歼 ,, =1。 
(11 ) end for 


(12) H(x)= ipt oh 0)) 
1=1 
; 1if Fah) 20 
其 中 : sign0 为 符号 函数 ，sign( 了 Qh (x)) = r 
-1if Dh (x) <0 


1=1 


据 此 ， 便 可 以 编程 计算 。 在 此 利用 从 mathworks 网 站 上 下 载 的 AdaBoost 算法 工具 箱 
GML_AdaBoost Matlab _Toolbox 0.3 进行 计算 。 
> file data = load('Ionosphere.txt');Data = file data(:,1:end-1) 17Labels = 
file data(:, end)'; 
>>Labels = Labels*2 - 1; % 只 能 处 理 1，-1 两 类 问题 
>>MaxIter = 100; $ 提 升 轮 数 
>>TrainData= Data(:,1:2:end) ;TrainLabels = Labels (1:2:end); $ 将 数据 集 分 类 
>>ControlData = Data(:,2:2:end) ;ControlLabels = Labels(2:2:end); 


>>weak_ learner= tree node w(3); $ 构 建 弱 分 类 器 


以 下 为 adaBoost 算法 ， 其 中 Real AdaBoost 是 一 般 AdaBoost 算法 ( generalization of a basic 
AdaBoost ), ModestAdaBoost 则 是 为 了 防止 过 拟 合 的 更 一 般 化 AdaBoost 算法 ( regularized tradeoff 
of AdaBoost ): 
>> [RLearners RWeights]= RealAdaBoost (weak learner, TrainData, TrainLabels, 
MaxIter); 
>>[MLearners MWeights]= ModestAdaBoost (weak learner, TrainData, TrainLabels, 
MaxIter); 
>>ResultR=sign (Classify (RLearners, RWeights, ControlData)); 
>>ResultM=sign (Classify (MLearners, MWeights, ControlData)); 
>>ErrorR = sum(ControlLabels ~= ResultR) / length (ControlLabels) 
>>ErrorM = sum(ControlLabels ~= ResultM) / length (ControlLabels) g 错 误 率 

ErrorR = 0.0629 ErrorM = 0.0686 


第 2 音 


预 测 


实战 大 数据 一 一 MATLAB 数据 挖掘 详解 与 实践 


21.1 回归 分 析 


预测 是 构造 和 使 用 模型 评估 无 标号 样本 类 , 或 评估 给 定 样本 可 能 具有 的 属性 值 或 区 间 值 。 预 
测 的 目的 是 从 历史 数据 中 自动 推导 出 对 给 定数 据 的 推广 描述 ， 从 而 能 对 未 来 数据 进行 预测 。 
预测 技术 一 般 采 用 回归 统计 方法 ， 包 括 线性 回归 、 非 线性 回归 、 多 元 回归 等 。 
回归 分 析 主要 用 于 了 解 自 变量 与 因 变 量 的 数量 关系 , 主要 用 于 寻找 两 个 或 两 个 以 上 的 变量 之 
间 互 相 变 化 的 关系 , 并 借 此 了 解 变 量 间 的 相关 性 ,可 用 以 通过 控制 自 变量 来 影响 因 变 量 , 也 可 进 
一 步 通过 回归 分 析 来 进行 预测 。 利 用 数据 库 某 些 有 用 的 信息 ， 就 可 以 对 未 知 的 变量 进行 预测 。 
在 回归 分 析 中 , 要 注意 在 考虑 自 变量 的 选取 时 , 必须 要 注意 所 选 出 的 自 变量 与 因 变 量 是 否 存 
在 因果 关系 。 它 们 的 选择 ， 可 以 根据 相关 理论 或 逻辑 或 根据 研究 人 员 探 讨 的 变量 关系 来 决定 。 
回归 分 析 的 步骤 如 下 ( 如 图 21.1 所 示 )。 


建立 回归 模型 


| 利用 所 得 数据 估计 回归 系数 ] 


诊断 回归 模型 


好 
归 模 型 


以 回归 模型 预测 


图 21.1 回归 分 析 的 基本 步骤 

(1 ) 由 分 布 图 的 情况 或 专门 学 科 的 知识 ， 拟 定 测定 值 间 的 数学 模型 。 

(2 ) 用 最 小 二 乘法 (或 其 他 规则 ) 尝试 正规 方程 式 。 

(3 ) 确定 回归 方程 式 。 

(4 ) 用 图 查看 所 求 的 方程 曲线 与 测定 值 的 分 布 是 否 一 致 , 以 确定 所 选 的 数学 模型 是 否 合理 。 

回归 分 析 包 括 线性 回归 、 非 线性 回归 、 多 元 回归 、 泊 松 回 归 、 对 数 回归 、 主 成 分 回归 等 。 
许多 问题 可 以 用 线性 回归 解决 , 还 有 的 问题 可 以 通过 对 变量 进行 变换 , 将 非 线性 问题 转换 成 线性 
问题 来 处 理 。 

回归 分 析 的 基本 原理 及 方法 已 在 第 2 篇 “数据 挖掘 算法 " 做 了 介绍 , 在 此 主要 介绍 逐步 回归 、 
岭 回归 及 主 成 分 回归 分 析 。 


21.1.1 逐步 回归 


实际 问题 中 影响 因 变 量 的 因素 可 能 很 多 , 我 们 希望 从 中 选择 出 影响 显著 的 自 变量 来 建立 回归 
模型 ， 这 就 涉及 变量 的 选择 问题 。 如 果 自 变量 选 得 太 少 ， 则 自 变 量 对 了 ( 因 变量 ) 的 决定 系数 大 
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测 的 目的 是 从 历史 数据 中 自动 推导 出 对 给 定数 据 的 推广 描述 ， 从 而 能 对 未 来 数据 进行 预测 。 
预测 技术 一 般 采 用 回归 统计 方法 ， 包 括 线性 回归 、 非 线性 回归 、 多 元 回归 等 。 
回归 分 析 主要 用 于 了 解 自 变量 与 因 变 量 的 数量 关系 , 主要 用 于 寻找 两 个 或 两 个 以 上 的 变量 之 
间 互 相 变 化 的 关系 , 并 借 此 了 解 变 量 间 的 相关 性 ,可 用 以 通过 控制 自 变量 来 影响 因 变 量 , 也 可 进 
一 步 通过 回归 分 析 来 进行 预测 。 利 用 数据 库 某 些 有 用 的 信息 ， 就 可 以 对 未 知 的 变量 进行 预测 。 
在 回归 分 析 中 , 要 注意 在 考虑 自 变量 的 选取 时 , 必须 要 注意 所 选 出 的 自 变量 与 因 变 量 是 否 存 
在 因果 关系 。 它 们 的 选择 ， 可 以 根据 相关 理论 或 逻辑 或 根据 研究 人 员 探 讨 的 变量 关系 来 决定 。 
回归 分 析 的 步骤 如 下 ( 如 图 21.1 所 示 )。 


建立 回归 模型 


| 利用 所 得 数据 估计 回归 系数 ] 


诊断 回归 模型 


好 
归 模 型 


以 回归 模型 预测 


图 21.1 回归 分 析 的 基本 步骤 

(1 ) 由 分 布 图 的 情况 或 专门 学 科 的 知识 ， 拟 定 测定 值 间 的 数学 模型 。 

(2 ) 用 最 小 二 乘法 (或 其 他 规则 ) 尝试 正规 方程 式 。 

(3 ) 确定 回归 方程 式 。 

(4 ) 用 图 查看 所 求 的 方程 曲线 与 测定 值 的 分 布 是 否 一 致 , 以 确定 所 选 的 数学 模型 是 否 合理 。 

回归 分 析 包 括 线性 回归 、 非 线性 回归 、 多 元 回归 、 泊 松 回 归 、 对 数 回归 、 主 成 分 回归 等 。 
许多 问题 可 以 用 线性 回归 解决 , 还 有 的 问题 可 以 通过 对 变量 进行 变换 , 将 非 线性 问题 转换 成 线性 
问题 来 处 理 。 

回归 分 析 的 基本 原理 及 方法 已 在 第 2 篇 “数据 挖掘 算法 " 做 了 介绍 , 在 此 主要 介绍 逐步 回归 、 
岭 回归 及 主 成 分 回归 分 析 。 


21.1.1 逐步 回归 


实际 问题 中 影响 因 变 量 的 因素 可 能 很 多 , 我 们 希望 从 中 选择 出 影响 显著 的 自 变量 来 建立 回归 
模型 ， 这 就 涉及 变量 的 选择 问题 。 如 果 自 变量 选 得 太 少 ， 则 自 变 量 对 了 ( 因 变量 ) 的 决定 系数 大 
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小 , 导致 过 大 的 偏差 。 但 如 果 把 与 因 变 量 有 关 的 自 变 量 都 选中 是 不 可 能 的 。 一 般 来 讲 ， 选 的 自 变 
量 越 多 ,剩余 平方 和 越 小 , 然而 多 个 自 变量 中 有 相当 一 部 分 对 了 的 影响 不 显著 , 反而 会 产生 因 自 
度 的 减少 而 增 大 的 误差 ; 另外 ,多 个 自 变量 间 的 相关 也 会 给 回归 方程 的 实际 解释 带 来 麻烦 ， 即 
多 重 共 线 性 的 影响 ,基于 以 上 原因 , 在 作 回归 分 析 时 一 般 要 求 进入 回归 方程 的 自 变量 都 是 显著 的 ， 
未 进入 的 自 变量 都 是 不 显著 的 ， 即 建立 最 优 回归 方程 。 

逐步 回归 法 是 建立 最 优 回归 方程 的 一 种 统计 方法 ,其 特点 有 两 个 : 首先 ,对 引入 的 因子 进行 
检验 ， 显 著者 引入 ， 不 显著 者 剔除 ; 其 次 ,每 引入 一 个 新 因子 ， 要 对 前 面 引 入 的 因子 进行 检验 ， 
显著 者 保留 ,不 显著 者 剔除 ， 这样 反复 做 下 去 ,直至 进入 的 因子 都 显著 ,未 进入 方程 的 因子 都 不 
显著 为 止 ， 就 得 到 了 最 优 回归 方程 。 

逐步 回归 中 的 基本 思路 为 , 先 确定 一 初始 子 集 , 然后 每 次 从 子 集 外 影响 显著 的 变量 中 引入 一 
个 对 了 影响 最 大 的 , 再 对 原来 子 集中 的 变量 进行 检验 , 从 变 得 不 显著 的 变量 中 剔除 一 个 影响 最 小 
的 , 直至 不 能 引入 和 剔除 为 止 。 使 用 逐步 回归 有 两 点 值得 注意 , 一 是 要 适当 地 选 定 引入 变量 的 显 
著 性 水 平 om 和 剔除 变量 的 显著 性 水 平 ur。 显然 ，um 越 大 ， 引 入 的 变量 越 多 ; oov 越 大 ， 剔 除 的 
变量 越 少 ; 二 是 由 于 各 个 变量 的 相关 性 , 一 个 新 的 变量 引入 后 , 会 使 原来 认为 显著 的 某 个 变量 变 
得 不 显著 ， 从 而 被 剔除 ， 所 以 在 最 初 选择 变量 时 应 尽量 选择 相互 独立 性 强 的 自 变量 。 
在 具体 操作 中 ， 要 通过 了 下 检验 才能 得 出 变量 的 引入 或 剔除 。 


1. 引入 标准 






































用 ~ 
Boyeny 本 服从 F(1n 一 1 1) 分 布 。 
可 以 根据 给 出 的 置信 和 度 ， 从 所 分 布 中 查 出 两 个 临界 值 Fl 和 Fs。 
车 计算 的 BO > 五， 则 就 应 把 x; 引 入 方程 ， 否 则 不 引入 。 


若 计 算 的 EW < 瓦 ， 则 应 把 立 从 回归 方程 中 剔除 ， 和 否则 不 剔除 。 


统计 量 :FoO = 


a 1 | DP 
式 中 : OD = 1- Tt 了 10 ，oO = 1 > PIA, V=0" -Oo = Ly 
i 过 


(1-D 
隐 
代步 数 ，n 为 自 变 量 数目 ，” 为 相应 变量 的 相关 系数 。 
对 于 未 引入 回归 方程 的 变量 x， 逐一 计算 


，1 为 迭 








再 找 出 其 中 最 大 的 一 个 即 Vw， 计算 
(n-1 -DVO 


- 
证 pS Pim 


1 


FO= 
: 


如 果 瓦 2 > 五 ， 则 引入 回归 方程 ; 否则 , 不 引入 。 
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2. 剔除 标准 
对 已 进入 回归 方程 的 变量 xx， 逐 一 计算 
wb? 
夺 
Ti 














找 出 其 中 最 小 的 一 个 即 Vp, 计算 
EO = /DVitnm 


(CD 
Ty 


如 果 FO < 瓦 ， 则 对 应 变量 应 剔除 ;否则 不 剔除 。 


21.1.2 ”上 岭 回归 

当 自 变量 存在 高 度 共 线 性 时 ， 一 般 的 回归 分 析 的 方差 就 会 很 大 ,估计 值 就 很 不 稳定 ， 有 时 会 
出 现 与 实际 意义 不 相符 的 正 负 号 。 此 时 可 采用 岭 回归 方法 。 

当 自 变量 间 存在 高 度 共 线性 时 ,|X 和 =0, 或 者 有 接近 于 零 的 特征 根 。 设 想 给 XX 加 上 一 个 正 
常数 矩阵 KI (天 > 0 )， 那 么 XX+ KI 接近 奇异 的 程度 就 会 比 接近 奇异 的 程度 小 得 多 。 此 时 称 

PO=(X'X+KD XY'y 

为 的 岭 回 归 ， 其 中 大 称 为 岭 参 数 ，X 已 经 标准 化 , y 可 以 经 过 标准 化 也 可 以 未 经 标准 化 。 

显然 , 岭 回归 作为 有 的 估计 应 比 最 小 二 乘 估计 稳定 。 当 f=0 岭 回 归 估计 就 是 普通 的 最 小 二 乘 
估计 。 由 于 岭 参数 不 是 唯一 确定 的 ， 所 以 得 到 的 岭 回 归 估 计 Bh) 实际 是 回归 参数 p 的 一 个 估 
计 值 。 当 岭 参数 大 在 (ooo) 内 变化 时 ， 启 ( 昌 是 大 的 函数 , 此 函数 图 像 就 称 为 岭 迹 , 如 图 21.2 所 示 。 
在 实际 应 用 中 ， 可 以 根据 岭 迹 曲线 的 变化 来 确定 适当 的 值 和 进行 自 变量 的 选择 。 

BD 









BD 


图 21.2 岭 迹 曲线 
岭 迹 法 选择 天 值 的 一 般 原 则 如 下 。 
(1) 各 回归 系数 的 岭 估计 基本 稳定 。 
(2 ) 用 最 小 二 乘 估计 时 符号 不 合理 的 回归 系统 ， 其 岭 估计 的 符号 变 得 合理 。 
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(3 ) 回归 系数 没有 不 合乎 经 济 意义 的 绝对 值 。 

(4 ) 残 差 平方 和 增 大 不 太 多 。 

也 可 以 用 方差 扩大 因子 法 确定 大 值 。 矩阵 c( 昌 =( 开 ' 工 + KJ) 廊 ' 下 (XX' 于 + 杂 ) 的 对 角 线 元 素 
cx 月 称 为 岭 估 计 的 方差 扩大 因子 , 其 值 随 大 的 增 大 而 增 大 , 选择 左 使 所 有 方差 扩大 因子 oj 和 D10， 
此 时 岭 估计 就 会 变 得 相对 稳定 。 

岭 回归 分 析 还 可 以 用 来 选择 变量 ， 此 时 选择 变量 的 原则 如 下 。 

(1 ) 直接 比较 岭 回归 系数 的 大 小 ， 可 以 剔除 回归 系数 比较 稳定 上 且 绝 对 值 很 小 的 自 变 量 。 

(2 ) 当 磊 值 较 小 时 ， 标 准 化 岭 回归 系数 的 绝对 值 并 不 是 很 小 ， 但 是 不 稳定 ， 随 着 大 的 增加 
迅速 趋 于 零 ， 像 这 样 岭 回归 系数 不 稳定 ， 震 动 趋 于 零 的 自 变 量 也 可 以 剔除 。 

(3 ) 如 果 依 据 上 述 变量 的 原则 ， 有 若干 个 回归 系数 不 稳定 ,究竟 去 掉 几 个 ， 可 需要 根据 去 
掉 某 个 变量 后 重新 进行 岭 回归 分 析 的 效果 来 确定 。 


21.1.3” 主 成 分 回归 分 析 


当 自 变量 存在 高 度 共 线 性 或 一 般 回归 分 析 所 得 到 的 回归 系数 不 符合 常理 时 , 可 以 采用 主 成 分 
回归 法 , 它 通 过 主 成 分 变换 ,将 高 度 相关 的 变量 的 信息 综合 成 相关 性 低 的 主 成 分 , 然后 以 主 成 分 
代 换 原 变量 参与 回归 。 

主 成 分 分 析 的 原理 及 方法 已 在 第 2 篇 “数据 挖掘 算法 ”中 做 了 介绍 ， 而 主 成 分 回归 的 步 又 
如 下 。 

(1 ) 对 问题 的 原始 数据 矩阵 主 成 分 分 析 ， 得 到 m 个 主 成 分 Z。 

(2 ) 然后 用 因 变 量 y， 主 成 分 Z 作 为 自 变 量 , 做 多 元 线性 回归 分 析 ， 得 到 主 成 分 回归 方程 。 

(3 ) 将 得 到 的 m 个 主 成 分 表达 式 代入 主 成 分 回归 方程 式 ， 就 会 得 到 最 终 的 回归 方程 式 ， 即 
问题 数据 矩阵 中 的 因 变量 与 自 变量 的 主 成 分 回归 方程 。 


21.2 ”时 间 序 列 预 测 模型 


时 间 序 列 是 指 以 时 间 顺 序 取得 的 一 系列 观察 值 ， 这 里 的 “时 间 ” 具 有 广义 坐标 轴 的 含义 ， 既 
可 以 按时 间 的 先后 顺序 排列 数据 ,也 可 按 空间 的 前 后 顺序 排列 随机 数据 。 从 经 济 到 工程 技术 , 从 
天 文 到 地 理 和 和 气象 , 几乎 在 各 种 领域 都 会 遇 到 时 间 序 列 。 例 如 股票 市 场 的 每 日 波动 ， 某 地 区 的 降 
水 量 月 度 序列 ， 某 化 工 生成 过 程 按 小 时 观测 的 产量 等 。 

一 般 认为 时 间 序 列 由 4 个 部 分 构成 , 即 : 长 期 趋势 或 趋势 变化 ,季节 变动 或 季节 性 变化 , 循 
环 变动 或 循环 变化 ， 不 规则 变动 或 随机 变化 。 

长 期 趋势 就 是 时 间 序 列 依 时 间 变化 而 逐渐 增加 或 减少 的 长 期 变化 的 趋势 , 它 反映 时 间 序列 的 
一 般 变化 方向 。 确 定 趋势 曲线 的 典型 方法 为 加 权 平 均 方法 和 最 小 二 乘法 。 季 节 变 化 是 指 一 年 或 固 
定 一 段 时 间 内 ,呈现 固定 的 规则 变动 ， 它 反映 每 年 (或 固定 时 间 段 内 ) 都 重复 出 现 的 规律 。 循 环 
变动 主要 指 趋势 曲线 在 长 期 时 间 内 呈现 摆动 的 现象 , 它 可 以 是 也 可 以 不 是 周期 性 变化 的 。 通常 一 
个 时 间 序 列 的 循环 是 由 其 他 多 个 规模 小 的 时 间 序 列 循环 组 合 而 成 的 。 不 规则 变动 是 在 时 间 序 列 中 
将 长 期 趋势 、 季 节 变 动 以 及 循环 变动 等 成 分 分 离 后 ， 所 剩 下 的 随机 状况 的 部 分 ， 在 数据 拟 合 时 ， 
应 先 剔 除 不 规则 变动 。 
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一 般 而 言 ， 长 期 趋势 、 季 节 变 动 以 及 循环 变动 都 受到 规则 性 
法 进行 分 析 、 处 理 和 预测 ; 而 不 规则 变动 是 属于 随机 性 的 , 具有 不 可 预见 性 , 其 发 4 


可 能 为 自 
时 间 
利用 时 间 








然 灾害 、 人 为 的 意外 因素 、 天 气 的 突然 改变 以 及 政治 形势 的 巨大 变化 等 。 











下 ,运用 
212:1 
时 i 


日 | 


时 间 序列 分 析 往 往 可 达到 事半功倍 之 功效 。 
时 间 序 列 的 特征 量 
序列 的 数学 特征 主要 有 以 下 几 种 。 








1. 均值 
均值 的 定义 


N 
Hx]=4= 姑 十 Dx 
n=0 


对 于 有 限 长 度 时 间 序 列 的 均值 估 值 可 按 下 式 计算 


ee N 
Ex()]= 忆 = 证 x(n) 
n=0 


2. 方差 ( 二 阶 中 心 矩 ) 


方 


兴 是 用 来 说 明 时 间 序 列 各 可 能 值 对 其 平均 值 的 偏离 程度 ， 其 定义 如 下 


o2(x)=02 =E{lx(n) -pF} 


对 于 有 限 长 度 随机 信号 序列 ， 计 算 其 方差 估计 ， 可 按 下 式 


N 
AD 
n=0 


3. 均 方差 
均 方差 定义 为 


D(x?)=D? =E{|x(mF} 


因素 的 影响 ,可 以 利用 一 般 的 方 








E 的 原因 很 多 ， 


序列 预测 ( 模型 ) 就 是 要 从 历史 数据 中 发 现 相似 或 者 有 规律 的 模式 、 趋 势 、 突 变 以 及 离 
以 揭示 事物 运动 、 变 化 和 发 展 的 内 存 规律 ， 为 人 们 正确 认识 事物 和 科学 决策 提供 依据 。 
序列 模型 不 需要 知道 影响 预测 变量 的 因果 关系 , 在 系统 的 动态 性 较 强 、 关 于 影响 预测 变 
量 的 决定 性 因素 的 信息 很 少 、 且 有 足够 多 的 数据 量 可 以 用 来 构成 一 个 合理 长 度 的 时 间 序列 的 情况 


它 描述 了 时 间 序 列 的 强度 或 功率 。 均 方差 与 时 间 序列 的 均值 和 方差 存在 如 下 的 关系 


到 = 话 一 后 
21.2.2 平稳 时 间 序 列 预测 模型 
1. 自 回归 模型 


自 回归 模 型 记 为 AR (p )。 设 ,x2…a 是 平稳 时 间 序 列 , 则 AR (p ) 模型 是 p 阶 自 回归 模型 ， 


即 
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xD) = D+ Dx + Dx s+ + Dx ,+6, 

其 中 : pt1,p+2,…,n，@p#0; si 是 随机 误差 项 。 
通常 设 = 遵从 正 态 分 布 Y (0，cz )， 此 时 可 用 逐步 回归 法 来 选择 p， 并 得 到 回归 系数 。 
2. 滑动 平均 模型 
滑动 平均 模型 记 为 MA ( q)。 设 


xD =x(n) -x=6, -Qe 


=(1-0B8B-0B’ —…0,B")s, 


= 


其 中 : 91,0,,…,@y 是 选 定 系 数 ; 0y#0，s, 是 随机 误差 项 ， 亦 即 白 噪声 。 
3. 自 回 归 一 滑动 模型 


自 回 归 一 滑动 模型 记 为 ARMA (pg )。 为 了 提高 精度 ， 满 足 更 为 一 般 的 线性 平稳 模型 将 
AR (p) 与 MA (4) 结合 , 组 成 ARMA (p,q ) 模型 ， 即 自 回归 -- 滑动 平均 模型 ， 其 具体 形式 
为 : @(B)x(D) = 6(B)e， 


其 中 ， PD(B)=1- DB- DP,B’ -DP,B? D0 


0(B)=1-QB-0,B’ —…—0,B" Qa#0 
以 上 三 个 模型 可 采用 最 小 二 乘 估 计 法 、Yule-Walker 方程 估计 法 、U-C 算法 等 进行 计算 。 
4. 平滑 预测 模型 


(1 ) 简单 一 次 平滑 平均 预测 法 。 
设 妇 为 时 间 序列 ， 取 平 滑 平均 的 项 数 为 mw, 设 记 是 第 + 期 的 实际 值 , 则 第 (r+1) 期 预测 值 的 计 
算 公式 为 
站 
ya = MP = 一 一 全 一 全 nm 


n 


其 中 ，M® 表示 第 1 期 一 次 平滑 平均 数 ，y,,, 是 第 (r+1) 期 预测 值 (1 宇 n )， 预 测 的 标准 误差 为 


Em | > 
一刀 


其 中 : YN 为 时 间 序列 bd 中 原始 数据 的 个 数 。 

项 数 ” 的 取 值 应 该 根据 时 间 序列 而 定 。 如 果 n 过 大 会 降低 平滑 平均 数 的 敏感 性 , 影响 预测 的 
准确 性 ; 如 果 n 过 小 ,平滑 平均 数 易 受 随 机 变动 的 影响 ,难以 反映 实际 趋势 。 一 般 取 的 值 大 小 
能 包含 季节 变动 和 周期 变动 的 时 期 比较 好 , 这 样 可 以 消除 它们 的 影响 。 对 于 没有 季节 变动 和 周期 
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变动 的 时 间 序列 ，n 的 取 值 要 视 历 史 数 据 的 趋势 而 定 ， 一 般 来 说 ， 如 果 历 史 数 据 的 类 型 呈 水 平 型 
发 展 趋势 ， 则 项 数 ” 可取 较 大 值 ; 如 果 历 史 数据 的 类 型 呈 上 升 ( 下降 ) 型 发 展 趋势 ， 则 项 数 ”可 
取 较 小 值 ， 这 样 能 取得 较 好 的 预测 值 。 

(2 ) 加 权 一 次 平滑 平均 预测 法 。 

由 于 在 实际 中 , 参与 平均 的 各 期 数据 在 预测 中 的 作用 往往 是 不 同 的 , 因此 , 需要 采用 加 权 平 
滑 平均 法 进行 预测 。 加 权 一 次 移动 平均 预测 法 是 其 中 比较 简单 的 一 种 ， 其 计算 公式 为 








ee oe 
ya = Det Ma tH ys 3 
(i 


| 二 是 了 Dm 


其 中 : 表示 第 + 期 实际 值 ; jn 表示 第 (e+1) 期 预测 值 ， 表示 权重 ;n 是 平滑 平均 的 项 目 数 。 


(3 ) 一 次 指数 平滑 预测 法 。 
一 次 指数 平滑 预测 法 是 以 ed- oy 为 权重 (0<a<1，i= 0,1,2… )， 对 时 间 序 列 4 寻 进行 加 权 
平均 的 一 种 预测 方法 , yi 的 权重 为 a, ye 的 权重 为 wcG- o) ,ya 的 权重 为 wd-o)" …, 依次 类 推 。 
计算 公式 为 


pin =5" =ay, +(1—a)S,, 


其 中 : yy 表示 第 1 期 实际 值 ，y,, 是 第 t+1 期 预测 值 ，S 包 、S 分 别 表示 第 1 期 和 第 1 期 的 一 次 
指数 平滑 值 ，a 表示 平滑 指数 ,0 <a< 1。 
预测 标准 误差 为 


nl 

> (hi = a ” 

S= 人 | 所 
7 一 1 


其 中 : ”为 时 间 序 列 中 含有 原始 数据 的 个 数 。 

平滑 系数 对 预测 值 有 较 大 影响 , 但 目前 还 没有 一 种 较 好 的 选 值 办 法 , 只 能 根据 经 验 来 确定 。 
当时 间 序 列 的 数据 呈 水 平 型 发 展 趋势 时 ，x 可 取 较 小 值 ， 通 常 在 0~0.3 之 间 ; 如 果 序 列 数据 的 类 
型 旦 上 升 (下 降 ) 型 发 展 趋势 ， 则 a 可 取 较 大 值 ， 在 0.6~1 之 间 。 在 实际 预测 时 ， 可 以 选取 不 同 
的 a 值 进行 比较 ， 从 中 选取 一 个 合适 的 值 。 

在 计算 指数 平滑 法 的 平 请 值 时 ， 需 要 给 出 一 个 初 值 $59 ， 可 取 原 时 间 序 列 的 第 一 项 或 前 几 项 
的 算术 平均 值 为 初 值 。 一 次 指数 平滑 法 适用 于 变化 比较 平衡 、 增 长 或 下 降 趋势 不 明显 的 时 间 序列 
数据 预测 。 

(4 ) 二 次 指数 平滑 预测 法 。 

二 次 指数 平滑 预测 法 是 对 一 次 指数 平滑 值 再 作 一 次 指数 平滑 来 进行 预测 的 一 种 方法 ， 但 第 
zt1 期 预测 值 并 非 第 + 期 的 二 次 指数 平滑 值 ， 而 是 采用 下 列 公式 进行 预测 


SO = as +( -a)s® 
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其 中 4 = 28 一 5; TGS) ; 5 表示 第 期 的 一 次 指数 平滑 值 ， sf 表示 第 :其 
的 二 次 平滑 值 ; y 是 第 多， 表示 第 + 期 预测 值 ; a 是 平滑 系数 ; 初 值 SP 的 取 值 
方法 与 5 的 取 法 相同 。 
预测 的 标准 误差 为 








pe 了 


ss 
n—2 


二 次 指数 平滑 法 适用 于 时 间 序 列 呈 线性 增长 情况 下 的 短期 预测 。 
21.3 马尔 可 夫 链 


马尔 可 夫 链 模型 是 一 种 动态 随机 数学 模型 , 它 通 过 分 析 随机 变量 现时 的 运动 情况 来 预测 这 些 
变量 未 来 的 运动 情况 。 目 前 , 马尔 可 夫 链 模型 在 自然 科学 、 工 程 技 术 、 社 会 科学 、 经 济 研究 等 领 
域 有 着 广泛 的 应 用 。 

设 考察 对 象 为 一 系统 , 若 该 系统 在 某 一 时 刻 可 以 出 现 的 事件 集合 为 | 61,E2…, En 1, E1, E2,… 
En 两 两 互 斥 ， 则 称 E; 为 状态 ， 二 1,2,…,N。 称 该 系统 从 一 种 状态 Ei 变化 为 男 一 状态 石 的 过 程 为 状 
态 转 移 ， 并 把 整个 系统 不 断 实现 状态 转移 的 过 程 称 为 马尔 可 夫 过 程 ， 它 具有 两 个 特点 :( 1 ) 无 后 
效 性 ， 即 系统 的 第 次 实际 结果 出 现 的 状态 ， 只 与 第 w-1 次 时 系统 所 处 的 状态 有 关 ， 而 与 它 以 前 
的 状态 无 关 ; ( 2 ) 稳定 性 ， 该 过 程 逐 渐 趋 于 稳定 状态 ， 与 初始 状态 无 关 。 

假设 向 量 w=(iu2…zn) 满 足以 下 条 件 ， 则 称 其 为 概率 向 量 


uj 0,j=1,2,…,n 
Zu =1 
jl 


如 系统 由 状态 瓦 经 过 一 次 转移 到 状态 互 的 概率 记 为 Py;， 则 算 阵 


FR P,Py 
ea PB! P,Poy 
Pn Py -Pw 
为 一 次 (或 一 步 ) 转移 矩阵 。 
对 概率 矩阵 PP， 若 蝴 次 方 P" 的 所 有 元 素 皆 为 正 数 ， 则 矩阵 己 称 为 正规 概率 矩阵 。 
转移 矩阵 必定 为 概率 和 矩阵， 且 具 有 以 下 的 性 质 : 
《和 SR 
(和 


其 中 : P® 为 次 转移 矩阵 。 
马尔 可 夫 链 模型 如 下 : 
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设 系统 在 f=0 时 的 初始 状态 SO = (5 .3 多,S 和 ) 为 已 知 ， 经 过 次 转移 后 的 状态 向 量 
3 = SS)， 则 


S = SO| 2 


Py Pr Pw 


此 式 即 为 马尔 可 夫 预 测 模型 。 显然 , 系统 在 经 过 上 次 转移 后 的 状态 5 外 只 取决 于 初始 状态 S@ 
和 转移 矩阵 P。 


21.4 灰色 系统 方法 


由 于 人 们 所 处 的 环境 不 同 , 拥有 的 知识 水 平 不 同 , 对 客观 世界 中 的 许多 自然 现象 了 解 程度 是 
不 一 样 的。 按照 人 们 对 研究 具体 系统 的 了 解 程度 ， 一 般 分 为 “ 白 箱 系统 ” “黑箱 系统 ”和 “ 灰 箱 
系统 "。“ 白 箱 系 统 ” 是 指 该 系统 的 内 部 结构 已 被 充分 了 解 , 很 多 情况 下 已 经 建立 了 该 系统 的 数学 
模型 ;“ 黑 箱 系统 ” 则 是 指 那 些 系 统 内 部 结构 一 点 都 不 被 了 解 ， 只 能 获取 该 系统 的 激励 与 响应 信 
息 ， 有 的 甚至 这 些 信息 都 很 难 获取 ; 则 “ 灰 箱 系统 ”是 介 于 “ 白 箱 系 统 ”与 “黑箱 系统 ”之 间 ， 
即 知 道 系统 的 一 些 简单 信息 , 但 是 并 没有 完全 了 解 该 系统 , 只 能 根据 统计 推断 或 某 种 逻辑 思维 来 
研究 该 系统 ， 研 究 的 方法 即 为 灰色 系统 方法 。 


21.4.1 ”灰色 系统 的 基本 概念 














由 于 自然 现象 的 复杂 性 ,人 们 不 可 能 对 所 有 的 自然 系统 都 有 充分 的 了 解 , 必定 存在 许多 灰色 
系统 甚至 黑色 系统 。 很 明显 对 于 灰色 系统 的 描述 有 别 于 白色 系统 。 
1. 灰 数 














灰色 系统 理论 中 的 一 个 重要 概念 是 灰 数 。 灰 数 是 灰色 系统 理论 的 基本 单元 。 人 们 把 只 知道 大 
概 范围 而 不 知道 其 确切 值 的 数 称 为 灰 数 。 在 应 用 中 , 灰 数 实际 上 指 在 某 一 个 区 间或 某 个 一 般 的 数 
集 内 取 值 的 不 确定 数 。 灰 数 是 区 间 数 的 一 种 推广 ， 通 常用 记号 “@ ”表示 。 
有 以 下 几 类 灰 数 : 
。 ” 仅 有 下 界 的 灰 数 。 有 下 界 而 无 上 界 的 灰 数 ,， 记 为 @ E [a,m), 其 中 a 为 灰 数 的 下 确 界 , 它 是 一 
个 确定 的 数 ，[&.oo) 称 为 @ 的 取 数 域 ， 简 称 @@ 的 灰 域 。 
。” 仅 有 上 界 的 灰 数 。 有 上 界 而 无 下 界 的 灰 数 记 为 @ so，53]， 其 中 4 为 灰 数 的 上 确 界 ， 
是 一 个 确定 的 数 ， 而 (o，a] 是 它 的 灰 域 。 
。 ”区 间 灰 数 。 既 有 上 界 又 有 下 界 的 灰 数 称 为 区 间 灰 数 ， 记 为 @ e [a,，a]。 
。 ”连续 灰 数 与 离散 灰 度 。 在 某 一 个 区 间 内 取 有 限 个 值 或 可 数 个 值 的 灰 数 称 为 离散 灰 数 ; 取 
值 连续 地 充满 某 一 区 间 的 灰 数 称 为 连续 灰 数 。 
。 ” 黑 数 与 白 数 。 当 @E ( -oo ) 或 @E ( (@,,8,) ， 即 当 @ 的 上 、 下 界 皆 为 无 穷 或 上 、 
下 界 都 是 灰 数 时 ， 称 @ 为 黑 数 ， 可见， 黑 数 是 上 、 下 界 都 不 确定 的 数 。 当 @ Ee[g，a] 














第 21 章 预测 @ 


且 a= a 时 ， 称 @ 为 白 数 ， 即 取 值 为 确定 的 值 。 可 以 把 白 数 和 黑 数 看 成 是 特殊 的 灰 数 。 
。 ”本 征 灰 数 与 非 本 征 灰 数 。 本 征 灰 数 是 指 不 能 或 暂时 还 不 能 找到 一 个 白 数 作为 其 “代表 ” 
的 灰 数 , 比如 一 般 的 事前 预测 值 。 非 本 征 灰 数 是 指 赁 先 验 信息 或 某 种 手段 ， 可 以 找到 一 
个 白 数 作为 其 代表 的 灰 数 。 此 白 数 称 为 相应 灰 数 的 白化 值 。 记 为 多， 并 用 @ (a ) 表示 
以 a 为 白化 值 的 灰 数 。 
从 本 质 上 看 , 灰 数 又 可 以 分 为 信息 型 、 概 念 型 和 层次 型 三 类 。 信 息 型 灰 数 是 指 由 于 信息 缺乏 
而 不 能 肯定 其 取 值 的 数 ; 概念 型 灰 数 是 由 人 们 的 某 种 意愿 、 观 念 形成 的 灰 数 ; 层次 型 灰 数 是 由 层 
次 改变 而 形成 的 灰 数 。 


2. 灰 数 白化 与 灰 度 


当 灰 数 是 在 某 个 基本 值 附近 变动 的 , 这 类 灰 数 白化 比较 容易 , 可 以 其 基本 值 a 为 主要 白化 值 ， 
记 为 @ (a) =at6s 或 @ (a) E (一 ,a,+)， 其 中 6 为 扰动 灰 元 ， 此 灰 数 的 白化 值 为 久 (q)=a。 

对 于 一 般 的 区 间 灰 数 @ e[a,5]， 将 白化 值 久 取 为 

=aa+(l —Qa)b,a e[0,1] 

也 可 称 为 等 权 白 化 。 在 等 权 白 化 中 ,， 取 a=1/2 而 得 到 的 白化 值 称 为 等 权 均 值 白化 值 。 当 区 间 灰 数 
取 值 的 分 布 信息 缺乏 时 ， 常 采用 等 权 均 值 白化 。 

一 般 而 言 ， 灰 数 的 白化 取决 于 信息 的 多 少 , 如 信息 量 较 大 则 白化 较为 容易 。 一 般 用 白化 权 函 
数 (a 即 为 权 ) 来 描述 一 个 灰 数 对 其 取 值 范围 内 不 同 数值 的 “偏爱 ”程度 。 一 个 灰 数 的 白化 权 函 
数 是 研究 者 根据 已 知 信息 设计 的 ， 没 有 固定 的 格式 。 

灰 度 即 为 灰 数 的 测度 。 灰 数 的 灰 度 在 一 定 程度 上 反映 了 人 们 以 灰色 系统 的 行为 特征 的 未 知 程 
度 。 一 个 灰 数 的 灰 度 大 小 应 与 该 灰 数 产生 的 背景 或 论 域 有 关 不 可 分 割 的 作用 。 在 实际 应 用 中 , 会 
遇 到 大 量 的 白化 权 函 数 未 知 的 灰 数 。 灰 数 的 灰 度 主要 与 相应 定义 信息 域 的 长 度 及 其 基本 值 有 关 。 


21.4.2 ”灰色 序列 生成 算 子 


灰色 系统 理论 的 主要 任务 之 一 是 根据 社会 、 经 济 、 生 态 等 系统 的 行为 特征 数据 ,寻找 不 同系 
统 变量 之 间或 某 些 系统 变量 自身 的 数学 关系 和 变化 规律 。 灰色 系统 理论 认为 任何 随机 过 程 都 是 
一 定 幅 度 范围 内 和 一 定时 区 内 变化 的 灰色 量 ， 并 把 随机 过 程 看 成 灰色 过 程 。 

由 于 受到 噪声 的 干扰 , 需要 采用 统计 的 方法 研究 给 定 的 某 一 数据 序列 。 但 是 统计 的 方法 要 求 
数据 量 非常 大 ， 并 且 计 算 量 大 ， 也 无 法 对 动态 数据 的 发 展 趋势 进行 预测 ， 尤 其 是 对 小 样本 数据 ， 
统计 方法 更 显得 力不从心 。 灰 色 系统 可 以 克服 上 述 缺 憾 , 它 利用 一 定 的 数据 处 理 方法 去 寻找 数据 
间 的 发 展演 变 规 律 。 

灰色 系统 理论 通过 对 原始 数据 的 挖掘 ( 预 处 理 )， 生 成 新 的 数据 序列 ， 以 便 挖 掘 出 原始 数据 
中 的 规律 , 发 现 隐匿 在 数据 中 的 趋势 , 这 样 一 种 以 数据 寻找 数据 现实 规律 的 途径 被 称 为 灰色 序列 
生成 。 灰 色 系统 认为 ,尽管 客观 系统 表象 复杂 ,数据 离 乱 ， 但 它 总 是 有 整体 功能 的 ， 因 而 必然 草 
含 某 种 内 在 规律 , 关键 在 于 如 何 选择 适当 的 方式 去 挖掘 它 和 利用 它 。 一 切 灰色 序列 都 能 通过 某 种 
生成 弱化 其 随机 性 ， 显 现 其 规律 性 。 

设 三 (x(1)x(2)…x(n)) 为 原始 数据 序列 ，D 为 作用 于 革 的 算 子 , 革 经 过 算 子 D 的 作用 后 所 得 
的 序列 为 : YD=(x(1)4dx(2)q.…x(m)d)。 称 DD 为 序列 算 子 , 称 XD 为 一 阶 算 子 作用 序列 。 
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且 a= a 时 ， 称 @ 为 白 数 ， 即 取 值 为 确定 的 值 。 可 以 把 白 数 和 黑 数 看 成 是 特殊 的 灰 数 。 
。 ”本 征 灰 数 与 非 本 征 灰 数 。 本 征 灰 数 是 指 不 能 或 暂时 还 不 能 找到 一 个 白 数 作为 其 “代表 ” 
的 灰 数 , 比如 一 般 的 事前 预测 值 。 非 本 征 灰 数 是 指 赁 先 验 信息 或 某 种 手段 ， 可 以 找到 一 
个 白 数 作为 其 代表 的 灰 数 。 此 白 数 称 为 相应 灰 数 的 白化 值 。 记 为 多， 并 用 @ (a ) 表示 
以 a 为 白化 值 的 灰 数 。 
从 本 质 上 看 , 灰 数 又 可 以 分 为 信息 型 、 概 念 型 和 层次 型 三 类 。 信 息 型 灰 数 是 指 由 于 信息 缺乏 
而 不 能 肯定 其 取 值 的 数 ; 概念 型 灰 数 是 由 人 们 的 某 种 意愿 、 观 念 形成 的 灰 数 ; 层次 型 灰 数 是 由 层 
次 改变 而 形成 的 灰 数 。 


2. 灰 数 白化 与 灰 度 


当 灰 数 是 在 某 个 基本 值 附近 变动 的 , 这 类 灰 数 白化 比较 容易 , 可 以 其 基本 值 a 为 主要 白化 值 ， 
记 为 @ (a) =at6s 或 @ (a) E (一 ,a,+)， 其 中 6 为 扰动 灰 元 ， 此 灰 数 的 白化 值 为 久 (q)=a。 

对 于 一 般 的 区 间 灰 数 @ e[a,5]， 将 白化 值 久 取 为 

=aa+(l —Qa)b,a e[0,1] 

也 可 称 为 等 权 白 化 。 在 等 权 白 化 中 ,， 取 a=1/2 而 得 到 的 白化 值 称 为 等 权 均 值 白化 值 。 当 区 间 灰 数 
取 值 的 分 布 信息 缺乏 时 ， 常 采用 等 权 均 值 白化 。 

一 般 而 言 ， 灰 数 的 白化 取决 于 信息 的 多 少 , 如 信息 量 较 大 则 白化 较为 容易 。 一 般 用 白化 权 函 
数 (a 即 为 权 ) 来 描述 一 个 灰 数 对 其 取 值 范围 内 不 同 数值 的 “偏爱 ”程度 。 一 个 灰 数 的 白化 权 函 
数 是 研究 者 根据 已 知 信息 设计 的 ， 没 有 固定 的 格式 。 

灰 度 即 为 灰 数 的 测度 。 灰 数 的 灰 度 在 一 定 程度 上 反映 了 人 们 以 灰色 系统 的 行为 特征 的 未 知 程 
度 。 一 个 灰 数 的 灰 度 大 小 应 与 该 灰 数 产生 的 背景 或 论 域 有 关 不 可 分 割 的 作用 。 在 实际 应 用 中 , 会 
遇 到 大 量 的 白化 权 函 数 未 知 的 灰 数 。 灰 数 的 灰 度 主要 与 相应 定义 信息 域 的 长 度 及 其 基本 值 有 关 。 


21.4.2 ”灰色 序列 生成 算 子 


灰色 系统 理论 的 主要 任务 之 一 是 根据 社会 、 经 济 、 生 态 等 系统 的 行为 特征 数据 ,寻找 不 同系 
统 变量 之 间或 某 些 系统 变量 自身 的 数学 关系 和 变化 规律 。 灰色 系统 理论 认为 任何 随机 过 程 都 是 
一 定 幅 度 范围 内 和 一 定时 区 内 变化 的 灰色 量 ， 并 把 随机 过 程 看 成 灰色 过 程 。 

由 于 受到 噪声 的 干扰 , 需要 采用 统计 的 方法 研究 给 定 的 某 一 数据 序列 。 但 是 统计 的 方法 要 求 
数据 量 非常 大 ， 并 且 计 算 量 大 ， 也 无 法 对 动态 数据 的 发 展 趋势 进行 预测 ， 尤 其 是 对 小 样本 数据 ， 
统计 方法 更 显得 力不从心 。 灰 色 系统 可 以 克服 上 述 缺 憾 , 它 利用 一 定 的 数据 处 理 方法 去 寻找 数据 
间 的 发 展演 变 规 律 。 

灰色 系统 理论 通过 对 原始 数据 的 挖掘 ( 预 处 理 )， 生 成 新 的 数据 序列 ， 以 便 挖 掘 出 原始 数据 
中 的 规律 , 发 现 隐匿 在 数据 中 的 趋势 , 这 样 一 种 以 数据 寻找 数据 现实 规律 的 途径 被 称 为 灰色 序列 
生成 。 灰 色 系统 认为 ,尽管 客观 系统 表象 复杂 ,数据 离 乱 ， 但 它 总 是 有 整体 功能 的 ， 因 而 必然 草 
含 某 种 内 在 规律 , 关键 在 于 如 何 选择 适当 的 方式 去 挖掘 它 和 利用 它 。 一 切 灰色 序列 都 能 通过 某 种 
生成 弱化 其 随机 性 ， 显 现 其 规律 性 。 

设 三 (x(1)x(2)…x(n)) 为 原始 数据 序列 ，D 为 作用 于 革 的 算 子 , 革 经 过 算 子 D 的 作用 后 所 得 
的 序列 为 : YD=(x(1)4dx(2)q.…x(m)d)。 称 DD 为 序列 算 子 , 称 XD 为 一 阶 算 子 作用 序列 。 
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序列 算 子 可 以 作用 多 次 ,相应 得 到 的 序列 称 为 二 阶 、 三 阶 序列 …… 相 应 的 算 子 称 为 一 阶 、 二 
阶 序列 算 子 ……… 


1. 均值 生成 算 子 


在 收集 数据 时 ， 常 常 由 于 一 些 不 易 克 服 的 困难 导致 数据 序列 出 现 空缺 ( 即 空 穴 ); 而 有 些 数 
据 序 列 虽 然 完整 , 但 由 于 系统 行为 在 某 个 时 点 上 发 生 突变 而 形成 异常 数据 , 剔除 异常 数据 后 就 会 
留 下 空 穴 。 

如 何 填补 序列 空 穴 自 然 成 为 数据 处 理 过 程 中 首先 遇 到 的 问题 ， 均 值 生 成 是 常用 的 构造 新 数 
据 ， 填 补 原 序 列 空 穴 ， 生 成 新 序列 的 方法 。 

设 序列 在 大 处 出 现 空 穴 ， 记 为 C(D ， 即 

X=(x(1),x(2),…x(t-1), OF), x(t+ 1)…x(n)) 

称 x(t-1) 和 x(t+1) 为 @(r) 的 界 值 ， 前 者 为 前 界 ， 后 者 为 后 界 。 

当 B(A) 是 则 x(1-]) 和 x(t+ 了) 生成 时 ， 称 生成 值 x(D) 为 [x(: 一 1]), x(t+ 1)] 的 内 点 。 

而 当 @(k)=x*(D)=0.5 x(1-1)+0.5 x(D) 称 为 非 紧邻 均值 生成 数 。 

设 序列 入 (x(1),x(2),…,x(n)x(n+1)),Z 是 鞋 的 均值 生成 序列 

Z =(=:(1),2(2),…,=(n)) 

其 中 : z(D=0.5 x(1-1)+0.5 x(), 六 是 某 一 可 导 函 数 的 代表 序列 ，4 为 n 维 空间 的 距离 ， 将 了 删除 
x(n+1) 后 提 到 的 序列 仍 记 为 了 ， 若 子 满 足 


@ 当 充分 大 时 ，x(D) < 六 x0) 











@ gel 0-0P RE OO| 


则 称 蕊 为 光滑 序列 。 称 pC) = 闻 吕 1=2,3,…,n 为 了 的 光滑 比 。 
xQ) 


i=l 


2. 累加 生成 算 子 


累加 生成 可 以 看 出 灰 量 积累 过 程 的 发 展 趋势 , 使 杂乱 的 原始 数据 中 草 含 的 积分 特性 或 规律 充 
分 表现 出 来 。 

设 如 =(x%(1),x?(2)…,x?(m)), DD 为 序列 算 子 ， 即 : 人 YD=(x?(1)d,x%(2)qd,…x 人 (mn)q) 
其 中 : #0 0) 1=1,2,…,n 
则 称 D 为 妃 的 一 次 累加 算 子 ， 记 为 1-AGO。 同样 可 以 有 二 阶 、 三 阶 、…… 、r 阶 的 累加 生成 算 
子 5 可 以 记 为 xd= 六 xmg) 1=1,2,-,n 

则 累加 生成 算 子 生成 的 序列 称 为 累加 生成 数 。 


如 果 原 始 序 列 为 非 负 准 光滑 序列 , 则 其 一 次 累加 生成 序列 具有 准 指数 性 质 。 原始 序 列 越 光滑 ， 
生成 后 指数 规律 也 越 明显 。 
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3. 累 减 生成 算 子 


设 个 =)x?(2)…xA(m)), DD 为 序列 算 子 ， 即 : XD=(x%(1)dx?(2)qd,…x?(n)q) 
其 中 : xD=zO-Rt-D 1=12,…,n ,规定 x(0)=0 
则 称 DD 为 节 的 一 次 累 减 算 子 ， 记 为 1-IAGO。 同 样 可 以 有 二 阶 、 三 阶 、…… 、r 阶 的 累 减 生成 算 
EE 

由 累 减 生成 算 子 生成 的 序列 称 为 累 减 生成 数 。 
21.4.3 ”灰色 分 析 

灰色 系统 建 模 是 通过 数据 序列 建立 微分 方程 来 拟 合 给 定 的 时 间 序 列 , 从 而 对 数据 的 发 展 趋势 
进行 预测 。 

灰色 建 模 常用 的 模型 是 GM ( 1,N)， 其 中 G 代表 灰色 ，1 代表 微分 方程 的 阶 数 ，N 代表 变量 
的 个 数 。 


1.GM ( 11 ) 模型 


给 定数 列 -Geo(0D)xo2)…xo0D) 
X= (Dx (2),x (nm)) 
ZU) 2 0 2 0 
方程 x(D+a ZA( 忆 =b 为 灰 微 分 方程 ，- a 为 发 展 灰 数 ， 反 映 了 序列 的 发 展 趋势 ; 5 为 内 生 控 
制 灰 数 ， 它 反映 了 数据 变化 的 关系 ， 其 确切 内 涵 是 灰色 的 。 
其 中 : x( 有 为 原始 数据 序列 ; 对 为 耻 的 1-AGO 序列 ; 0D=0.5x(+05xk-1D) 为 筷 的 近邻 生 
成 序列 。 
设 4=(aq,5) 为 参数 列 ， 令 











x"(2) —z!(2) 1 
0 | 

了 = “加 了 A ! 
x (n) —2!(n) ] 


则 灰 微分 方程 xb+a Z(b2 的 最 小 二 乘 估计 参数 列 满足 
a=(B'B)B'Y 
给 定数 列 ” 天 =(x?(D)x2(2)…x?(m), 于 为 节 的 1-AGO 序列 , 2 为 恒 的 紧邻 生成 序列 ， 称 
Ge 二 
一 一 +ax =b 
dt 
为 灰 微分 方程 的 白化 方程 ， 也 称 影子 方程 ， 其 解 
x00) =(x0(0) -cn 之 
a a 
称 为 时 间 响 应 函数 。 
GM ( 11 ) 灰 微分 方程 x*(D+a ZA(D=6 的 时 间 响应 序列 为 
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ED GVO Cee 
a a 


取 xo(O= xD)， 则 
HDVDV Deste 12 
a a 
还 原 值 为 


X24D=xOG4DAN) 1=12,--n 


通过 大 量 的 实际 问题 验证 ， 对 于 GM ( 1,1 ) 的 使 用 范围 如 下 。 
。 ” 当 -a<0.3 时 ， 可 用 于 中 长 期 预测 ; 

。 当 0.3< -a<0.5 时 ， 可 用 于 短期 预测 ， 中 长 期 预测 慎 用 ; 
。 ” 当 0.5< -a<0.8 时 ， 作 短期 预测 应 十 分 谨慎 ; 

。 0.8<-a<1 时， 应 采用 残 差 修正 GM ( 1,1 ) 模型 ; 

。 当 -a>1 时 , 不宜 采 用 GM ( 1,1 ) 模型 。 


2. GM ( 1,1 ) 模型 检验 


GM (1,1 ) 模型 的 检验 有 残 差 检 验 、 关 联 度 检验 和 后 验 差 检验 。 
(1 ) 残 差 检验 。 

残 差 大 小 检验 是 对 模型 值 与 实际 值 的 残 差 进行 逐 点 检验 。 

绝对 残 差 序列 


AO=AoGOi=12 用 AOO J AV -A | 





及 相对 残 差 序 列 
AGO 人) 
VD 


$={p,i=1,2,-…,n}, $4 





]% 
并 计算 相对 残 差 
i 1 LJ 
$= F724 


给 定 a， 当 $< 上 且 入 <a 成 立时 ， 称 模型 为 残 差 检验 合格 模型 。 


(2 ) 关联 度 检验 。 

关联 度 检验 是 通过 考察 模型 值 曲线 和 建 模 序 列 曲线 的 相似 程度 进行 检验 。 按 前 面 所 述 的 关联 
度 计算 方法 ， 计 算出 * 0@) 与 原始 数列 x) 的 关联 系数 ， 然 后 计算 出 关联 度 。 根 据 经 验 ， 关 联 
度 大 于 0.6 是 可 以 接受 的 。 

(3 ) 后 验 差 检验 。 

后 验 差 检 验 是 对 残 差分 布 的 统计 特性 进行 检验 。 

Q@ 计 算出 原始 数列 的 平均 值 
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2 =17x00) 


@ 计 算 原始 数列 的 均 方差 
>poo-z 了 | 
S=| 妈 - 
7 一 1 
@ 计 算 残 差 的 均值 
ro < (0) 7 
WA 人 
@ 计 算 残 差 的 方差 
>aoo-z 下 
汪汪 过 相 
1 一 1 
回 计 算 方差 比 
C=S1/S> 
@@ 计 算 小 残 差 概率 


PP=P{lAOG)-Al<0.6745S， 


令 So=0.6745S1，@ 直 A®G)-A|, 即 P=P | ei<So 1。 





若 对 于 给 定 的 C。>0， 当 C< Co 时 ， 称 模型 为 均 方差 比 合格 模型 。 如 对 于 给 定 的 Pp。>0， 当 
P> Po 称 为 小 残 差 概率 合格 模型 。 

若 相 对 残 差 、 关 联 度 、 后 验 差 检验 在 允许 的 范围 内 ,， 则 可 以 用 所 建立 的 模型 进行 预测 ， 否 则 
应 进行 残 差 修正 。 

3. 残 差 GM ( 1,1 ) 模型 

当 GM (1，N) 模型 的 精度 不 符合 要 求 时 ， 可 以 用 参差 序列 建立 GM ( 1,N ) 模型 对 原来 的 
模型 进行 修正 ， 以 提高 精度 。 

设 允 -cx22)…x2onD) 为 模型 的 原始 序列 ， 吾 为 妃 的 1-AGO 序列 ，Z! 为 对 的 紧邻 生成 
序列 ， 灰 色 微分 方程 x(D+a Z (0=2 的 时 间 响 应 序列 为 

2 
其 参差 序列 为 


s% = (ms :em( 


其 中 ， soO=xoO-2 (r) ， 若 存在 ,满足 
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。 ”对 任意 的 1,e 中 (7) ， 符 号 一 致 ; 
。 1- 宇 4， 则 称 

(eS) ble Go+Dh le (nD) 
为 可 建 模 参差 尾 段 ， 仍 记 为 

2 =(eO os +D EC0D) 
对 于 可 建 模 参差 尾 段 ， 其 1- AGO 序列 

eV =(ed (e+D20CD 
的 GM (1，1) 时 间 响 应 式 为 


a 福 寺 (wj 人 
a 


a, 


和 


则 参差 尾 段 的 模拟 序列 为 ， 2” = (2 (),2 (i +),…,2 0D) ， 其 中 


和 0) Bd 
E (1+l)=-a, [mw 去 | HN 
a 


若 用 a 中 (k) 修正 全”， 称 修正 后 的 时 间 响 应 式 


[ea -一 2 相交 淘 
^(D a a 


b 
[ve 二 这 (je 1 过 加 
a a a 


s 


为 参差 修正 GM ( 1,1 ) 模型 。 
4.GM ( LN ) 模型 


设 互 "Ga20)2a22)…a4D) 为 系统 特征 数据 序列 ， 妹 -Ga%Da(2)…D)， 天 2.3…:N 为 相 
关 因素 数列 序列 ， 对 型 作 累 加 生成 马 ?…， 称 为 型 的 阶 累 生成 序列 
00) = Dx 0m), t=1,2,,n;i=1,2,,N 
0 = po ap i=L2,,N 
Z9 为 Xe 的 紧邻 均值 生成 序列 ， 建 立 如 下 形式 的 微分 方程 模型 
全 + az0(CD) = 太 x(D+ 访 xm(D+- 二 ax 


为 是 一 阶 Y 个 变量 的 微分 方程 模型 ， 称 为 GM(1.M) 模 型 。 
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利用 最 小 二 乘法 对 该 方程 求解 ， 可 得 到 系数 阵 
a=(B'B)B'Y 
其 中 : a=(@,b,,b, a) ; p=[x (2),x 3), x (NT 


ORO SO Or) 
1 1 oa 
Bu -73 (D+) 73 (D+ 3)] a 3 D+ xy 3)] 
po-D+sO0 SD + 0) SD + 0)] 


一 0 一 (0) 


模型 建立 后 ， 通 过 求解 微分 方程 得 w (0D) ， 并 将 其 作 累 减 得 模型 还 原 值 x (zt) ， 并 与 实测 
原始 值 比较 ， 看 是 否 满足 精度 要 求 ， 若 否 ， 对 残 差 继续 建立 GM 模型 进行 修正 。 
5. 灰色 灾变 预测 
灰色 灾变 预测 的 任务 是 给 出 下 一 个 或 几 个 异常 值 出 现 的 时 刻 ， 以 便 人 们 提前 准备 ， 采 取 对 
设 原始 数列 为 芋 = | x(1),x(2),…x(n) |， 给 定 上 限 异 常 值 ( 灾变 值 ) 5， 称 革 的 子 序列 
= | x(q(1)),x(q(2)),…,x(q(m)) | ={x(qg(D)lx(q(i) 6 二 1,2,,m} 





为 上 灾变 序列 。 
如 果 给 定 下 限 异常 值 ( 灾变 值 ) &， 则 称 革 的 子 序列 
X= |x(q(1)x(q(2)),…x(q() | ={x(q() (qa) EE 12 
为 下 灾变 序列 。 
如 原始 序列 也 = | x(q(1))x(q(2)),…x(q(m)) 上 cc 下 为 灾变 序列 ， 相 应 的 数列 9'% = | gq(1)， 
4q(2)…,q(m) | 为 灾变 日 期 序列 。 
对 于 灾变 日 期 序列 ， 其 1- AGO 序列 为 2 2 = | q(1)，gq(2)…,q(m) 上 的 紧邻 生成 序列 Z 1 ， 
则 4 (D+a Z(D-2 为 灾变 GM (1.1 ) 模型 。 
设 a=[a,8J 为 灾变 GM ( 1,1 ) 模型 参数 序列 的 最 小 二 乘 估 计 ， 则 灾变 日 期 序列 的 GM ( 1.1 ) 
序号 响应 式 为 
0D=(0) -Se +2 
a a 


QD)=9 (+D-9 (0) 

we b 一 at b -ad-D _ a b 一 af 

r+D)=(4D) -De (9) -De =e)(g) -De 
a a a 


设 X= {x(1),x(2),…x(n) | 为 原始 数列 ，n 为 现在 ,给 定 异常 值 5:， 相 应 的 灾变 日 期 序 
列 09 和 0 = | gq(1)，gq(2)…q(m) |， 其 中 qlm)<n 为 最 近 一 次 灾变 日 期 ， 则 称 g(m+]) 为 下 一 次 灾变 
的 预测 日 期 ， 对 任意 20， 称 g(m+7) 为 未 来 第 1 次 灾变 的 预测 日 期 。 
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21.5 例题 


例 4.18 表 21.1 是 我 国 在 某 段 时 间 内 财政 收入 的 数据 表 。 请 对 其 进行 回归 分 析 。 
表 21.1 财政 收入 表 


国民 收入 | 工业 总 产值 | 农业 总 产值 | 总 人 口 就 业 人 口 | 固定 资产 投资 财政 收入 
( 亿 元 ) 〈 亿 元 ) 〈 亿 元 ) 〈 百 万 ) ( 百 万 ( 亿 元 ) ( 亿 元 ) 











598 349 461 57482 20729 44 184 
586 455 475 58796 归 89 216 
707 520 491 60266 21832 9 248 
737 558 529 98 254 
825 5 556 150 268 





1028 1235 598 65994 256 357 
1114 1681 509 26173 338 444 


1079 1870 444 380 506 
757 1156 434 138 271 


779 1046 514 26640 85 266 
1152 1581 632 72538 175 393 
1187 1565 680 31915 127 303 
1372 2101 688 207 447 
1780 3156 790 355 638 
1833 3365 789 87177 354 658 

















如 果 对 此 所 题 进行 一 般 的 多 元 线性 回 ) 分 析 , 得 到 的 某 些 回归 系数 为 负 值 , 明显 不 符合 财政 
收入 与 各 个 指标 间 的 实际 关系 。 这 说 明 各 指标 之 间 具 有 较 强 的 相关 性 。 此 时 的 回归 分 析 需 要 采用 
岭 回归 。 
MATLAB 中 有 专门 的 岭 回归 函数 ridge。 为 了 应 用 方便 ， 对 此 函数 进行 了 改进 ， 主 要 通过 判 
断 回 归 系 数 的 稳定 性 ， 即 连续 ” 次 回归 系数 的 差 不 超 过 某 个 值 (er )， 就 为 较 好 的 磊 值 。 用 户 也 
可 以 通过 图 21.3 所 示 的 “ 岭 迹 图 ”确定 较 佳 大 值 ， 然 后 输入 带 大 值 的 mybridge 函数 进行 回归 。 
利用 得 到 的 回归 系数 进行 回归 时 ， 不 需要 对 数据 进行 规范 化 处 理 。 











加 
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图 21.3 岭 迹 图 
n、er 以 及 最 大 的 大 值 可 以 采用 默认 值 ， 也 可 以 自行 输入 。 
>>1oad mydata; 
>> [a,b]=mybridge (x,y) 


a=80.03640.09850.0602 0.0443 0.0002 -0.0015 0.5049 回归 系数 , 包括 常数 项 
p23 % 较 好 的 天 值 


从 岭 迹 图 可 以 看 出 变量 x*3、xs 和 xs 的 回归 系数 较 小 ， 可 以 忽略 这 三 个 变量 的 影响 。 然 后 对 
始 样品 删除 这 三 个 变量 后 再 进行 回归 分 析 。 

例 4.19 在 回归 分 析 的 实际 应 用 中 , 应 注意 由 于 测量 仪器 性 能 、 外 界 条 件 等 因素 的 影响 , 得 
到 的 数据 集 有 可 能 存在 异常 或 粗 差 值 , 或 者 各 自 变 量 对 因 变 量 测量 误差 的 影响 程度 并 不 相同 。 在 
这 些 情 况 下 ， 回 归 分 析 应 采用 稳健 回归 ， 即 采用 含 权重 参数 的 回归 模型 

(TX+wI) b=Yy 

式 中 : 天 为 测量 数据 矩阵 ; y 为 响应 值 矩 阵 ; b 为 估计 得 到 的 回归 系数 ; w 为 权重 ， 它 是 一 个 可 
调 的 正 数 ;7 为 单位 矩阵 。 

表 21.2 是 婴儿 年 龄 ( 月 )、 身 高 与 体重 关系 的 数据 集 ， 请 对 此 进行 回归 分 析 。 






















表 21.2 数据 集 

年 龄 | 身高 年 龄 | 身高 | 体重 
112 141.6 134 154.5 52.3 
116 147.8 135 152.0 50.5 
if7 142.8 137 151.5 49.4 
120 140.7 139 150.6 48.5 
123 134.7 140 149.9 47.5 
125 145.4 141 160.3 59.3 
126 135.0 
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解 : 
>>x1=[112 116 117 120 123 125 126 128 129 129 130 131 132 133 134 135 137 139 140 141]» 
Xx2=[141.6 147.8 142.8 140.7 134.7 145.4 135.0 134.0 148.5 146.3 147.5 158.8 132.0 
T4057 L545 L320 TIL 5 L5026 T4999 L160=313 
3=L3756 A420540-.5 39.5 3453.38.0 32:5 303 445.5 4 .60.42-2 3593 49.0 4435.52:3 
50.5 49.4 48.5 47.5 59.3]; 


>>num=length (x1); zx=[x1;x2]"'; 





>> b=regress (x3', [ones (num,1) ,x]); $ 一 般 线 性 回归 分 析 
>> bb=b (2:3) ';y=b(1)+bb*x";plot3 (x1, x2,yl1,'*"'); hold on;plot3 (x1, x2, x3, '0'); s 图 21.4 
S> bp robustritl(x x3)e % 稳 健 回归 分 析 


>>bb=b (2:3) ';y2=b (1) +bb*x" ;plot3 (x1, x2, x3, '0') ;hold on;plot3 (x1,x2,y2,'*") $ 图 21.5 


SS8 器 闸 B 8 3 





图 21.4 一 般 线性 回归 结果 
9 





130 110 


图 21.5 稳健 回归 结果 
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从 图 中 可 看 出 , 稳健 回归 的 结果 要 明显 好 于 一 般 线性 回归 结果 , 这 主要 是 由 于 数据 集中 有 异 
常 点 (12 号 样本 ) 存在 。 

例 4.20 在 实际 问题 中 , 经 常 遇 到 需要 研究 两 组 多 重 相关 变量 间 的 相互 依赖 关系 , 并 研究 用 
一 组 变量 ( 常 称 为 自 变量 或 预测 变量 ) 去 预测 另 一 组 变量 ( 常 称 为 因 变 量 或 响应 变量 ), 除了 最 
小 二 乘 准则 下 的 经 典 多 元 线性 回归 分 析 (MLR ), 提取 自 变量 组 主 成 分 的 主 成 分 回归 分 析 (PCR ) 
等 方法 外 ,还 有 近年 发 展 起 来 的 偏 最 小 二 乘 ( PLS ) 回归 方法 。 偏 最 小 二 乘 回 归 提供 一 种 多 对 多 
线性 回归 建 模 的 方法 , 特别 当 两 组 变量 的 个 数 很 多 , 且 都 存在 多 重 相关 性 , 而 观测 数据 的 数量 ( 样 
本 量 ) 又 较 少时 ， 用 偏 最 小 二 乘 回 归 建 立 的 模型 具有 传统 的 经 典 回归 分 析 等 方法 所 没有 的 优点 。 

偏 最 小 二 乘 回归 分 析 在 建 模 过 程 中 集中 了 主 成 分 分 析 , 典型 相关 分 析 和 线性 回归 分 析 方法 的 
特点 , 因此 在 分 析 结 果 中 , 除了 可 以 提供 一 个 更 为 合理 的 回归 模型 外 , 还 可 以 同时 完成 一 些 类 似 
于 主 成 分 分 析 和 典型 相关 分 析 的 研究 内 容 ， 提 供 更 丰富 、 深 入 的 一 些 信息 。 

表 21.3 是 某 健 身 俱乐部 的 20 位 中 年 男子 的 一 些 体能 指标 。 一 组 是 身体 特征 指标 工 ， 包 括 体 
重 、 腰 转 、 脉 捕 。 第 二 组 是 训练 结果 指标 了 Y， 包 括 单 杜 、 弯 曲 、 跳 高 。 

表 21.3 ”体能 训练 数据 















































体重 (4) | 腰围 (%) 弯曲 (Wy) | 跳高 (ys) 
i 本 本 
189 37 110 60 
i 
162 35 105 37 
189 35 155 58 
182 36 56 101 42 
21 3 | 5s | :s | mm 38 
167 34 125 40 
176 31 200 40 
154 33 251 250 
169 34 50 120 38 
166 33 210 115 
154 34 61 14 215 105 
247 46 50 1 50 50 
193 36 46 6 70 31 
202 37 62 42 210 120 
176 37 54 4 60 25 
157 32 52 11 230 80 
156 3 54 15 225 73 
138 33 M0 4 








解 : 
对 于 偏 最 小 二 乘 回归 , 既 可 以 自己 编程 , 也 可 以 用 MATLAB 自 带 的 偏 最 小 二 乘 函数 plsregress 
进行 计算 。 在 此 利用 自 编 的 pls 进 行 求解 。 
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特点 , 因此 在 分 析 结 果 中 , 除了 可 以 提供 一 个 更 为 合理 的 回归 模型 外 , 还 可 以 同时 完成 一 些 类 似 
于 主 成 分 分 析 和 典型 相关 分 析 的 研究 内 容 ， 提 供 更 丰富 、 深 入 的 一 些 信息 。 
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体重 (4) | 腰围 (%) 弯曲 (Wy) | 跳高 (ys) 
i 本 本 
189 37 110 60 
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162 35 105 37 
189 35 155 58 
182 36 56 101 42 
21 3 | 5s | :s | mm 38 
167 34 125 40 
176 31 200 40 
154 33 251 250 
169 34 50 120 38 
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193 36 46 6 70 31 
202 37 62 42 210 120 
176 37 54 4 60 25 
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解 : 
对 于 偏 最 小 二 乘 回归 , 既 可 以 自己 编程 , 也 可 以 用 MATLAB 自 带 的 偏 最 小 二 乘 函数 plsregress 
进行 计算 。 在 此 利用 自 编 的 pls 进 行 求解 。 
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>>1oad mydata; 


>> [Sol,r,rr]=pls(x,y): 











$ 得 图 21 .6、 图 21 .7 





























>> sol=47.0197 612.5671 183.9849 $ 回 归 系 数 
-0.0167 -0.3509 -0.1253 
-0.8237 -10.2477 -2.4969 
-0.0969 -0.7412 -0.0518 
2 s% 主 成 分 数 
判别 异常 点 
1.5 
1 
划 4 a 
98 
05 dg 
7 
区 “性 ef 3 9 
2 C do 
ds 
-0.5 
d ggg 
1 os 
Ee i ， 
~ 4 2 1 0 下 2 
Hg) 
图 21.6 异常 点 判断 
。 判别 线性 关系 
gd4 
2 d7 
§ go 
IF g 四 | 
By Gd 
学 交 剖 
十 
d6 gd2 gs 9 
车 
-9 do 
| ， ， 4 1 1 1 
5 -4 3 沁 | 0 | 2 
0 
图 21.7 线性 关系 判断 
从 图 中 可 看 出 , 这 个 问题 的 线性 关系 不 明显 ,预测 结果 的 误差 较 大 。 另 外 14 号 样本 点 属于 异 
常 点 。 
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例 4.21 在 回归 分 析 的 实际 中 ， 经 常会 遇 到 多 指标 的 问题 。 多 指标 不 仅 造成 计算 复杂 ， 而 
且 它 们 之 间 可 能 存在 的 相关 性 使 它们 提供 的 整体 信息 发 生 重 释 , 不 易 得 出 简单 的 规律 。 解决 变量 
间 的 这 个 多 重 共 线性 问题 , 除了 应 用 偏 最 小 二 乘 外 , 还 可 以 使 用 主 成 分 分 析 。 主 成 分 分 析 中 将 多 
指标 问题 转化 成 较 少 的 综合 指标 问题 , 综合 指标 是 原来 多 个 指标 的 线性 组 合 , 虽然 这 些 线性 综合 
指标 不 能 观测 到 ， 但 这 些 综合 指标 间 互 不 相关 ， 又 能 反映 原来 多 指标 的 信息 。 
表 21.4 是 一 个 数据 集 ， 试 用 主 成 分 回归 方法 对 其 回归 分 析 。 
表 21.4 数据 集 


44.02 1339.75 95 6.92 696.82 











20.42 620.25 12.8 4.28 1033.15 








18.74 568.33 36.7 EE 1603.62 





409.2 10.78 11732.17 


解 : 


>>load mydata; 











>> [sol,pcl,pcNum]=prinregress (x, y); s 得 图 21 .8 





Sol=-727.9139 8.0614 0.0698 0.2629 13.7414 104.2156 


pcNum=2; 
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x 10° 结果 比较 








O ”原始 数据 
1.8 上 文 “” 预 测 值 | 




















0 2 4 6 8 10 12 14 16 18 
图 21.8 回归 结果 


例 4.22 某 地 区 的 经 济 发 展 情况 如 表 21.5 所 示 。 请 用 主 成 分 回归 、 岭 回归 、 偏 最 小 二 乘 方 
法 对 其 分 析 。 


表 21.5 经 济 情况 数据 


239.0 
0.7 
167.6 
26.3 





>> =A493 L612 TO I L090 7 202=3 212=4 22051 231.9.239=087 

4.2 4 3 2 Se Wn 2 2<1 5.6 5-0 3. 0.7; 
¥09.1 114:8 123.2 126.9 132.1 137.7 L146.0 154-1 162:3.1645.3 167.6]" 
VDLSS9 L634 L130 19= UB-80 205492207 CS 2 19 27506 206593] 





>> [sol,r,rr,yy]=pls (x,y); $s 图 21.9 
>> [sol,pcl,pcNum]=prinregress (x, y); s 图 21.10 
>> [k_b,beta]=mybridge (x,y); $ 图 21.11 






































结果 比较 
30 - - - - - T T 
O 六 
走光 
& 
sel | 
多 
O 原始 数据 
襄 站 “预测 值 
20| | 
a 
广 
文 
0 
条 
15 1 | 1 pl 上 1 1 1 
4 人 半 5 6 7 & 9 和 州 
图 21.9 偏 最 小 二 乘 的 计算 结果 
y(1) 结 果 比 较 
30 r : : : ， r - : 1 
& 8 
R 
下 J 
负 
让 
0 
0 J 
O 号 克 
廊 
让 
O 
色 3 4 5 6 对 8 9 10 11 
图 21.10 主 成 分 回归 的 计算 结果 
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四 实战 大 数据 一 一 MATLAB 数据 挖掘 详解 与 实践 























结果 比较 
30 T T T T T T T T E 
O 让 
让 © 
> 
25 上 | 
O ”原始 数据 
训 廊 ”预测 值 
20 上 + | 
O @ 
% 2 
让 
O 
四 
15 1 1 1 1 1 1 | | 1 





图 21.11 岭 回归 的 计算 结果 
从 计算 结果 的 图 示 中 可 看 出 ,三 者 之 间 偏 最 小 二 乘 的 计算 结果 最 好 。 
例 4.23 在 回归 分 析 中 , 除了 应 用 偏 最 小 二 乘 、 逐 步 回归 、 主 成 分 回归 等 回归 方法 外 , 还 可 
以 对 变量 进行 增删 ， 以 得 到 合适 的 回归 表达 式 。 
某 钢铁 公司 炼 钢 转 炉 的 炉 龄 按 30 天 炉 / 天 炼 钢 规模 ， 大 约 一 个 月 就 需 等 炉 一 次 进行 检修 。 为 
了 减少 消耗 ， 厂家 通过 实际 测定 ， 得 到 表 21.6 所 示 的 数据 ， 其 中 xi 为 喷 补 料 量 、x 为 吹 炉 时 间 、 
为 炼 钢 时 间 、xs 为 钢水 中 含 鳃 量 、x; 为 渣 中 含 铁 量 、xs 为 作业 率 、 目 标 变量 y 为 炉 龄 ( 炼 钢 炉 































次 / 炉 )。 试 根据 此 表 数 据 建立 炉 龄 的 预测 模型 ， 以 便 适当 调节 参数 ， 以 延长 炉 龄 。 
表 21.6 转炉 炉 龄 数据 
No. X1 X2 y 
1 0.2922 18.5 1030 
2 0.2672 18.4 1006 
3 0.2685 17.7 1000 
4 0.1835 18.9 702 
5 0.2348 18.0 1087 
6 0.1386 18.9 900 
0.2083 18.3 708 
8 0.4180 18.8 1223 
9 0.1030 18.4 803 
10 0.4893 19.3 715 
11 0.2058 19.0 784 
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续 表 

No. X1 X2 

12 0.0925 17.9 535 

13 0.1854 19.0 949 

14 0.1963 18.1 1012 

15 0.1008 18.2 716 

16 0.2702 18.9 858 

17 0.1465 19.1 826 

18 0.1353 19.0 16.7 39.7 1015 

19 0.2244 18.8 17.4 49.0 861 





5. 
20 0.2155 20.2 16.8 417 1098 
21 0.0316 20.9 48.0 17.4 52.6 580 
2 | om | 203 573 
3 | ol487 | 194 EE ET rr ee 832 
24 0.2445 18.2 1076 
5 | 0222 | i184 1376 
26 | O18 | 184 | | | 
| 29 | 26 | 

36.0 


27 0.2300 18.4 


17.2 44.3 914 
22.9 21.6 861 







28 0.2436 灯光 


全 
b 


37.9 1105 
20.3 1013 
46.0 13.8 57.4 1249 
44.8 1039 
33 1502 
14.2 36.7 1128 


本 
bb 


30 0.1970 17.3 昌 
31 0.1840 16.2 
32 0.1679 人 34.6 


|e 有 


| 





poy 

Li- 

Sls 

bb | h 





变量 的 增 减 可 以 用 遗传 算法 来 完成 。 变 量 扩 维 一 筛选 方法 可 分 为 两 个 步骤 。 

@ 变量 扩 维 : 将 含有 变量 xuxz…x 的 数据 矩阵 天 扩 维 ， 引 入 变量 的 非 线性 项 如 邓 , 冯 …， 
xzxlxa 和 其 他 函数 形式 的 项 ， 这 样 将 瑟 扩 维 到 和 。 在 这 个 过 程 中 ， 宁 可 多 增加 一 些 
变量 ， 也 不 要 遗漏 变量 。 

@ 从 矩阵 怀 的 变量 筛选 出 一 些 重要 的 变量 ， 或 最 佳 变量 组 合 形成 的 矩阵 XX 来 建立 模型 ,使 
得 所 建立 的 模型 有 较 强 或 最 好 的 预报 能 力 。 

变量 扩 维 较为 简单 ,关键 是 变量 筛选 。 变 量 筛选 问题 ， 特 别 是 当 变量 的 数目 比较 大 时 ,是 - 

分 复杂 的 问题 。 解 决 这 个 问题 可 以 采用 多 种 方法 ， 其 中 遗传 算法 是 其 中 的 一 
在 处 理 变量 筛选 问题 时 , 遗传 算法 的 编码 一 般 采 用 二 进 制 编码 。 对 变量 数 为 的 问题 , 可 用 一 
个 含有 nn 个 0 或 1 的 字符 串 表示 一 个 变量 组 合 ，1 和 0 分别 表 示 此 变量 选中 和 未 选中 ，1 在 字符 
的 位 置 表示 变量 的 序号 。 如 “00110110”"， 表 示 有 8 个 变量 ， 其 中 第 3、4、6 和 7 变量 被 选中 。 
编码 结束 后 ， 再 利用 一 般 的 遗传 算法 的 基本 步骤 ， 就 可 以 求 出 最 佳 个 体 ， 即 变量 数 及 含义 ， 
此 时 所 采用 的 适应 度 函数 为 适应 度 函数 用 PRESS 值 。 此 值 的 含义 如 下 : 将 m 样本 中 m-1 个 样本 








T 








Dd 
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用 作 训 练 样本 ， 剩 下 的 一 个 样本 做 检验 样本 。 利 用 m-1 样本 建 模 ,用 检验 样本 代入 模型 ,可 求 得 
一 个 估计 值 jy。 然后 换 另外 一 个 样本 作为 检验 样本 ， 用 其 余 样 本 建 模 ,检验 样本 检验 ,得 到 第 二 
个 估计 值 p>。 如 此 循环 m 次 ,每 次 都 留 下 一 个 样本 作 估 计 ， 最 后 可 求 得 m 个 估计 值 ， 并 可 求 出 
m 个 预报 残 差 y-yi1， 再 将 这 m 个 残 差 平方 求 和 ， 即 为 PRESS。 此 值 越 小 ， 表 示 模 型 的 预报 能 力 
越 强 。 








PRESS= 之 0 = 


为 了 减少 计算 量 ， 在 实际 中 可 以 通过 普通 残 差 来 求 PRESS， 即 





PRESS = 六 CC2 
mi 1 一 及 


而 


ei 为 普通 残 差 ; hi 为 第 i 个 样本 点 到 样本 点 中 心 的 广义 化 距离 ; hs=xTCXTX) wio 天 为 数据 
阵 , x 为 芷 中 的 某 一 行 矢量 。 
具体 对 本 例 来 说 ， 除 表 中 的 变量 外 ,还 可 以 加 上 如 表 21.7 所 示 变量 : 

表 21.7 变量 


后 性 因子 -一 -一 非 线性 因子 一 一 一 非 线性 因子 








据 此 ， 可 编程 计算 ， 得 到 以 下 的 结果 
>>1oad data; 
>> yl=selectvar (data, y); 
yl= 0 0 2 wd 区 5 1 区 4 


即 x3, x4, xixa, x2x3, Xax4, Xxs, XsX6, 区 入 ws Se 中 。 
例 4.24 表 21.8 为 我 国 在 1965 一 1984 年 期 间 的 发 电 总 量 ， 试 预测 下 一 年 的 发 电 总 量 。 
表 21.8 发 电量 资料 

















年 份 发 电量 
1965 2031 
1966 2234 
1967 2566 
1968 2820 
1969 3006 
1970 3093 
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解 : 
用 于 时 间 序 列 预测 的 平滑 方法 可 以 用 多 种 选择 ， 在 此 选择 二 次 指数 平滑 法 。 


>> x=[676 825 774 716 940 1159 1384 1524 1668 1688 1958 2031 2234 2566 2820 3006 
309383277 3514037701. 

>> [y,a,b]=smoothpre (x, 'gE',1); 

>> y=3.9166e+003 $ 预 测 值 ( 实际 值 4107 ) 


smoothpre 函 数 所 采用 的 预测 方法 有 移动 平均 法 ( 简单 移动 平均 法 、 加 权 移动 平均 法 、 趋 势 
移动 平滑 法 )、 指数 平滑 法 ( 一次、 二 次 及 三 次 指数 ) 和 差分 指数 平滑 法 (一 阶 差分 和 二 阶 差分 ) 。 

简单 移动 平均 法 和 加 权 移动 平均 法 , 在 时 间 序 列 没有 明显 的 趋势 变动 时 , 能够 准确 反映 实际 
情况 。 但 当时 间 序 列 出 现 直 线 增加 或 减少 的 变动 趋势 时 ,用 简单 移动 平均 法 和 加 权 移动 平均 法 来 
预测 就 会 出 现 滞后 偏差 。 因 此 ， 需 要 进行 修正 ,修正 的 方法 是 作 二 次 移动 平均 ,利用 移动 平均 滞 
后 偏差 的 规律 来 建立 直线 趋势 的 预测 模型 ， 这 就 是 趋势 移动 平均 法 。 

一 般 说 来 历史 数据 对 未 来 值 的 影响 是 随时 间 间 隔 的 增长 而 递减 的 。 所 以 , 更 切合 实际 的 方法 
应 是 对 各 期 观测 值 依 时 间 顺 序 进行 加 权 平 均 作 为 预测 值 。 指 数 平滑 法 可 满足 这 一 要 求 , 而 且 具 有 
简单 的 递 推 形式 。 

但 当时 间 序列 的 变动 具有 直线 趋势 时 , 用 一 次 指数 平滑 法 会 出 现 滞后 偏差 , 此 时 可 以 从 数据 
变换 的 角度 来 考虑 改进 措施 , 即 在 运用 指数 平 请 法 以 前 先 对 数据 作 一 些 技术 上 的 处 理 , 使 之 能 适 
合 于 一 次 指数 平滑 模型 ， 以 后 再 对 输出 结果 作 技 术 上 的 返回 处 理 , 使 之 恢复 为 原 变量 的 形态 。 差 
分 方法 即 为 改变 数据 变动 趋势 的 简易 方法 。 

事实 上 ，MATLAB 自 带 smooth 平 滑 函 数 ， 其 具体 用 法 见 函 数 说 明 。 

例 4.25” 某 商品 2010 一 2014 年 销售 如 表 21.9 所 示 。 试 预测 2014 年 全 年 的 销售 量 ， 以 便 为 生产 
决策 。 














表 21.9 ” 某 商 品 销售 数据 
年 份 月 份 
2010 46 66 138 182 384 690 508 244 120 68 38 54 
118 










240 622 670 540 246 138 


691 542 384 


208 312 752 641 S578 323 165 








2014 52 70 210 320 740 672 580 340 168 43 74 96 
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解 2 
很 明显 ， 这 是 一 个 具有 季节 性 的 时 间 序 列 。 这 里 的 季节 可 以 是 自然 季节 , 也 可 以 是 销售 生产 
季节 。 
对 于 季节 性 的 时 间 序 列 进行 完全 拟 合 是 非常 困难 的 ， 但 可 以 通过 预测 找 出 季节 趋势 。 
季节 性 的 时 间 序 列 预 测 可 以 有 多 种 方法 ， 最 简单 的 即 为 季节 系数 法 ， 其 原理 如 下 。 
(1 ) 计算 所 有 数据 的 平均 值 7。 
(2 ) 计算 同 季度 或 同月 的 数据 平均 值 T。 
(3 ) 计算 季度 或 月 份 系数 8 二 7/T;。 

















(4) 预测 : 
Tmy, 
Q@ 首先 计算 年 份 的 年 加 权 平 均 : zs = 
加 


i=l 


其 中 : w 为 第 年 的 权重 ， 按 自然 年 份 取 值 ; 为 第 年 数据 的 总 和 。 





@ 计算 季节 或 月 度 平均 值 ，y,, = 2 ， 如 果 为 季度 则 m=4， 如 果 为 月 份 则 为 12; 
@ 计算 第 /个 季度 或 月 份 的 预测 值 : 
= Xe 


据 此 ， 可 编程 计算 如 下 。 
>> x=[46 66 138 182 384 690 508 244 120 68 38 54 
60 74 118 240 622 670 540 246 138 66 47 32 
36 40 184 278 648 691 542 384 130 65 38 25 
47 .65. .208. 312 752 .641 578.'323 165 3276.92 
52 70 210 320 740 672 580 340 168 43 74 96]; 
>> y=season (x, 'm') sm 是 指 按 月 份 预测 
例 4.26 ”对 表 21.10 所 示 的 某 海洋 冰 情 等 级 序列 进行 下 一 年 的 冰 情 预测 。 
表 21.10 ” 某 海洋 冰 情 等 级 序列 实测 值 单位 : 冰 情 
1973 1974 起 1976 















1972 





1973 








1.50 4.50 2.50 





1.50 





3.00 








等 级 3.00 | 1.00 
年 份 1980 | 1981 | 1982 | 1983 | 1984 1989 
等 级 2.50 | 2.50 | 2.00 | 3.00 | 3.50 
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(4) 预测 : 
Tmy, 
Q@ 首先 计算 年 份 的 年 加 权 平 均 : zs = 
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其 中 : w 为 第 年 的 权重 ， 按 自然 年 份 取 值 ; 为 第 年 数据 的 总 和 。 





@ 计算 季节 或 月 度 平均 值 ，y,, = 2 ， 如 果 为 季度 则 m=4， 如 果 为 月 份 则 为 12; 
@ 计算 第 /个 季度 或 月 份 的 预测 值 : 
= Xe 


据 此 ， 可 编程 计算 如 下 。 
>> x=[46 66 138 182 384 690 508 244 120 68 38 54 
60 74 118 240 622 670 540 246 138 66 47 32 
36 40 184 278 648 691 542 384 130 65 38 25 
47 .65. .208. 312 752 .641 578.'323 165 3276.92 
52 70 210 320 740 672 580 340 168 43 74 96]; 
>> y=season (x, 'm') sm 是 指 按 月 份 预测 
例 4.26 ”对 表 21.10 所 示 的 某 海洋 冰 情 等 级 序列 进行 下 一 年 的 冰 情 预测 。 
表 21.10 ” 某 海洋 冰 情 等 级 序列 实测 值 单位 : 冰 情 
1973 1974 起 1976 















1972 





1973 








1.50 4.50 2.50 





1.50 





3.00 








等 级 3.00 | 1.00 
年 份 1980 | 1981 | 1982 | 1983 | 1984 1989 
等 级 2.50 | 2.50 | 2.00 | 3.00 | 3.50 








450 


第 21 章 预测 @ 


解 
>>"x= L300 24559 500 S00 2.50 3200°0 T1000 30 TSS L350 4.500 2050 
.0 3500 3.50 S00 S00 2 0 0 
250 .50 “1a50 3 
>> m=length (x); plot (1:m,x,'o-') $ 画 图 21.12 


5 

















30 
图 21.12 冰 情 图 
可 以 看 出 冰 情 较为 复杂 。 
>>y=smoothpre (x, 'gqE',1); s 二 次 指数 平滑 
y=1.2986 % 实 际 值 为 1.50 
>> y=net time (x); $ 神 经 网 络 法 


y=1.5000 


例 4.27 某 县 油菜 发 病 率 数据 为 页 =(6,.20.40.25,40,45,35,21,14,18,15.5,17,15)， 试 用 灰色 系统 
模型 进行 模拟 。 

解 : 

>> x=[6 20 40 25 40 45 35 21 14 18 15.5 17 15]; 

>> [a,b,c,d]=gm(x); 

>> a=0.0648 23.3878 

gm(x) 为 GM ( 11 ) 模型 函数 ， 其 中 a 为 模型 参数 ，2 为 各 点 的 模拟 值 及 残 差 ，e 为 残 差 平方 
和 ，d 为 平均 相对 误差 。 

利用 模型 参数 ， 便 可 以 进行 预测 。 

例 4.28 某 地 区 平均 降水 量 数据 ( 单位 : mm ) 序 列 为 并 = ( 390.6 412.0 320.0 559.2 380.8 542.4 
553.0 310.0 561.0 300.0 632.0 540.0 406.2 313.8 576.0 587.6 318.5 ), 取 <= 320mm 为 下 限 异 常 值 ( 旱 
灾 )， 试 作 旱 灾 预 测 。 
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解 : 


SRN6 A120 32050" .5592 39000 S42“4° S55380 310300 561:6 300=50 632 0 


SA00 .ANG IE S60 SOG. SLS 


>> [a,b,c]=graynorm(zx,320,1) 


c=5 s 即 此 





序列 后 的 5 年 后 ， 可 能 会 发 生 灾变 


例 4.29 设 一 随机 系统 状态 空间 E={1,2,3,4}, 记录 观测 系统 所 处 状态 如 下 , 若 该 系统 可 用 马 
氏 模 型 描述 ， 估 计 转 移 概 率 Py。 


DR 


2 
2°1 2 3 4 
ke 2 册 


过 


20 4 3 


>> p=trans m(a); 


p= 0.4000 
O2727 
0.3636 

0 


0.4000 
0.1818 
0.3636 
0.1429 


3 3 
A3 3 1 
次 2 2 
De 


2 92 2 A 2 2 2 


% 转 移 矩 阵 函 数 

0.1000 0.1000 
0.3636 0.1818 
0.1818 0.0909 
0.5714 0.2857 


例 4.30 ”现在 市 场 上 有 A、B、C 三 个 三 家 生产 的 50 克 袋 状 味精 , 用 “tn=1”“&=2” “tn=3” 


分 别 表 示 “ 顾 客 第 n 次 购买 A、B、C 厂 的 味精 "。 显 然 ，{&n = 1,2,…» 





中 是 一 个 马 氏 链 。 若 已 知 第 


一 次 顾客 购买 三 个 厂 味精 的 概率 依次 为 0.2，0.4，0.4。 又 知道 一 般 顾 客 购买 的 倾向 由 表 21.11 给 
出 。 求 顾客 第 4 次 购买 各 家 味精 的 概率 , 并 预测 经 过 长 期 的 多 次 购买 之 后 , 顾客 的 购买 倾向 如 何 。 


上 次 购买 


表 21.11 


顾客 购买 倾向 








>> p=[0.8000 0.1000 0.1000;0.5000 0.1000 0.4000; 0.5000 0.3000 0.2000]; 
>> p1=[0.2 0.4 0.4]; 


>> p2=pl*p^3; 


gs 第 4 次 购买 不 同 产品 的 概率 


Pp2=0.7004 0.1360 0.1636 


>> y=limit p(p) 
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y=0.71430.13100.1548 或 5/7 11/84 13/84 


例 4.31 表 21.12 为 2002 一 2006 年 某 省 各 地 区 人 均 国 内 生产 
方法 预测 该 省 2007 年 的 发 展 情况 。 





T 





总 值 (GDP )， 请 用 马尔 可 夫 链 

















表 21.12 GDP 值 单位 : 元 

、 | | 

2002 2003 2004 2005 2006 

城 市 

21962 25252 29058 39792 44389 
23570 28024 33544 37457 33734 
多 11882 13868 15456 17700 20268 
4 8175 8987 9784 13871 
Ey 23412 28825 29536 58051 
6 10230 11703 15007 16074 





解 : 
首先 将 表 中 的 数据 离散 化 。 按 一 般 国 际 惯例 ， 可 以 按 以 下 国民 生产 总 值 ( 美元 ) 将 发 展 情况 分 为 : 
发 达 (A4 ) >3000$ 、 富 裕 (A3 ) 1500~3000$ 、 小 康 (A2 ) 800~1500$ 、 温 饱 (Al ) 300-800$ 。 
据 此 ， 可 以 将 表 中 分 类 ， 得 到 该 省 的 发 展 情况 ， 如 表 21.13 所 示 。 
表 21.13 ”发 展 情况 

















从 而 , 可 以 计算 出 2002 一 2003 年 .2003 一 2004 年 、2004 一 2005 年 和 2006 一 2007 年 的 转移 矩阵 。 
例 2002 一 2003 年 间 的 转移 矩阵 : 














453 


日 实战 大 数据 一 一 MATLAB 数据 挖掘 详解 与 实践 





pl=[1.0000 0 0 0 
0 0.8333 0.1667 0 
0 0 0.5000 0.5000 
0 0 0 1.0000]; 
再 求 4 个 转移 矩阵 的 平均 值 ， 即 为 整个 的 转移 矩阵 : 
p=[0.7208 a 2 0 0 
0 0.8083 OE 0 
0 0 0.8125 Qo 
0 0 0 1.0000]; 


根据 表 中 数据 ， 可 知 2006 年 人 均 GDP 的 状态 数 为 Xzoo6-(1,6,6,4) 
则 2007 年 的 状态 为 : N007=Moooe*p=(0.7208,5.129,6.02,5.125)， 实 际 为 Moo7=(1,5,6,5) 
即 1 个 城市 处 于 A1 状 态 ，5 个 城市 处 于 A2 状 态 、6 个 城市 处 于 A3 状 态 、5 个 城市 处 于 A4 状 态 。 
如 果 求 极 限 概率 ， 可 知 最 终 的 状态 为 ( 0,0,0,1 ) ， 即 各 城市 都 可 以 达到 富裕 状态 。 
例 4.32 有 正常 角子 和 灌 铅 人骨 子 各 一 枚 , 通过 实验 可 得 到 一 系列 数字 ( 点 数 ) 组 成 的 序列 ( 观 
察 序列 )， 但 从 序列 并 不 能 得 知 这 些 数 字 是 用 正常 骨 子 还 是 用 灌 铅 山 子 掷 出 (状态 序列 )， 即 构成 
了 一 个 隐 马 尔 可 夫 链 ( Hidden Markov Model，HMM )。 通 过 实验 可 得 到 如 下 的 转移 矩阵 ( trans ) 
及 混淆 矩阵 (emis)。 请 分 析 这 个 HMM 模型 。 
trans=[0.9 0.1;0.2 0.8] 
emis =[1/6 1/6 1/6 1/6 1/6 1/6;0 1/8 1/8 3/16 3/16 3/8] 
解 : 
在 MATLAB 中 的 统计 工具 箱 ， 有 专门 的 有 关 HMM 的 函数 。 利 用 这 些 函 数 可 以 解决 一 般 的 
HMM 模 型 。 
(1) 产生 序列 : 
[seq，states]=hmmgenerate (n，trans，emis) ; %n 为 序列 长 度 
产生 观察 序列 seq 及 状态 序列 states。 
(2 ) 计算 状态 序列 : 
likelystates=hmmviterbi (seq, trans, emis); 
产生 与 seq 相 对 应 的 状态 序列 。 可 以 与 实际 得 到 的 序列 相 比 较 ， 计 算 正 确 率 。 
(3 ) 对 转移 矩阵 及 混 消 矩阵 作 进 一 步 改 进 ( 评估 问题 ) : 
[trans est, emis est]=hmmestimate(seq, states); 
对 产生 seq 、states 的 转移 矩阵 和 混 消 矩阵 作 进一步 改进 。 
从 转移 矩阵 和 混 消 矩阵 ， 可 以 得 到 两 个 仙 子 各 点 出 现 的 概率 。 
(4 ) 对 初始 转移 矩阵 和 混淆 矩阵 进行 学 习 改进 ( 学 习 问题 ) : 


[trans_est1，emis_est1]=hmmtrain (Seq，trans_guess，emis guess); 


454 


第 21 章 预测 @ 


(5 ) 已 知 HMM 模 型 及 一 个 观察 序列 ， 求 状态 序列 〈 解码 问题 ) : 


pstates=hmmdecode (seq, trans, emis) 
例 4.33” 某 地 区 月 平均 降水 的 资料 如 表 21.14， 请 对 此 进行 预测 分 析 。 


表 21.14 某 地 区 平均 降水 mm 
424 102 1168 48 436 133 616 993 1395 555 683 83.4 900 188 476 996 100.1 80.6 


财 兴 需 


900 1008 146.1 55.1 1726 2748 1252 48 242 98 194 586 1400 383 166.8 104.8 


解 : 


> [42.4 10.2 116.8 4.8 43.6 13.3 61.6 99.3 139.5 55.5 68.3 83.4 90.0 18.8 47.6 99.6 100.1... 





80.6 90.0 100.8 146.1 55.1 172.6 274.8 125.2 4.8 24.2 9.8 19.4 58.6 140.0 38.3 166.8 104.8]; 
>> a=length (x); 
>>Yy=ar (xz; 5) 8 求 五 阶 RAR 模型 
Discrete-time IDPOLY model: A(q)y(t) = e(t) 
N= = 064l qt 0503595 .9-2 = (01406 9q =35- 0-9327q A0056636 9 =5 
>> for i=6:a % 预 测 值 
x2(i)=- (1-0.641*x(i-1)+0.03595*x (i—2)-0.1406*x (i-3)-0.1932*x (i-4)+0.06636*x (i-5)); 


end 


根据 计算 结果 ， 可 作 图 21.13 ， 预 测 结果 可 以 接受 。 

















250 上 | 


降水 量 (mm) 

















图 21.13 结果 图 
例 4.34 “多 个 因 变 量 与 多 个 自 变量 的 线性 回归 问题 ( 简称 多 对 多 的 线性 回归 ) 在 实际 应 用 | 
更 为 一 般 和 广泛 ， 如 生物 与 环境 问题 ， 生 物 系 统 中 的 功能 团 之 间 的 关系 等 ， 均 属性 此 类 问题 。 





T 











表 21.15 为 某 植物 品种 区 试 的 资料 , 其 中 x 为 冬季 分 蒙 , x 为 株 高 , yy 为 每 穗 粒 数 ,y, 为 干 
试 进行 六 、 力 对 xi、 世 的 回归 分 析 。 








粒 
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表 21.15 品种 区 试 数据 





























1 11.5 号 26.4 392 
2 9.0 97.7 30.8 46.8 
3 水 多 110.7 Ey 39.3 
4 9.1 89.0 35.4 35.3 
5 11.6 88.0 29.3 37.0 
6 13.0 87.7 24.6 44.8 
Ed 11.6 Th7 25.6 43.7 
8 10.7 119.3 299 38.8 
9 | 87.7 32.2 35.6 

















解 : 
S> z= 5 05 3 9 0 9 9 0 89 01 0030 07 
ea ee 
>>y=[26.4 39.2;30.8 46.8;39.7 39.1;35.4 35.3;29.3 37.0;24.6 44.8... 
96 A431 2909 300732 2 306 
>> [beta, stats]=mulregress (x, y); $ 其 中 stats 第 1 列 为 统计 量 计算 值 ， 第 2 列 为 查 表 值 
>> beta=58.0806 -2.6490 0.0049 $ 第 1 个 方程 式 回归 系数 
36.9666 0.3472 -0.0065 gs 第 2 个 方程 式 回归 系数 
>> stats{1}=[3.8491] [3.8379] ' 回 归 显 著 '  $ 回 归 式 的 统计 检验 
stats{2}=[14.4020] [3.8379] "xl 对 Y 作 用 不 显著 ' 


stats{3}=[0.0014] [3.8379] 'x2 对 Y 作 用 不 显著 ' 
stats{4}=[-4.1089] [1.9432] 'xl 对 yl 起 作用 ' 
stats{5}=[0.2953] [1.9432] "xl 对 y2 不 起 作用 ' 


stats{6}=[0.0588] [1.9432] "xl 对 yl 不 起 作用 ' 
stats{7}=[-0.0431] [1.9432] "xl 对 y2 不 起 作用 ' 


例 4.35 已 知 某 一 地 区 1980 一 1999 年 的 肿瘤 引起 的 死亡 率 ( %o ) 如 表 21.16 所 示 ， 试 建立 
AR 模型 。 





表 21.16 肿瘤 死亡 率 
10.010 11.260 9.000 9.090 9.440 9.090 8.730 8.680 9.040 9.045 
10.050 7.330 6.190 5.680 5.860 5.630 5.560 5.640 5.700 6.360 





>> x=[10.010 11.260 9.000 9.090 9.440 9.090 8.730 8.680 9.040 9.045 10.050 7.330 
6.190 5.680 5.860 5.630 5.560 5.640 5.700 6.360]; 


>> a=lpc (x, 3) $ 计 算 模型 参数 
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a=1.0000 -1.0152 0.1924 -0.1200 
>> estx=filter([0-a(2:end)],1,x)7 gs 估计 时 间 序 列 
>> plot (1:20,x,1:20,estx, '-.');legend(' 原 始 信 号 ', 'LPC 估计 '); hold on 
3> plot (Ll:20,x)7plot (1:20, x "0");Plot (1:20,6estxy "#1) ;xlabel (' 采 样 点 ') ;ylabel 
("幅度 ') $ 图 21.14 








一 一 原始 信号 
cl 一 -LPc 售 计 











幅度 














0 3 4 6 8 10 
采样 点 
图 21.14 原始 信号 与 估计 值 

例 4.36 为 了 提高 管理 效率 , 某 工厂 决定 对 某 工 段 的 用 时 进行 分 析 。 现 通过 大 量 的 实验 得 到 
该 工段 劳动 工时 的 数据 ( 见 Excel 劳动 工时 预测 数据 )。 试 建立 该 工时 的 预测 模型 。 
解 : 
该 数据 集 是 描述 某 工 件 的 劳动 用 时 ， 其 格式 是 : 
加 工 宽度 。 加 工 直径 。 加 工 深度 。 用 工 耗 时 











20 1 人 > 了 
20 2 0.8 
2 30 于 0.8 


可 以 看 出 , 三 个 自 变量 都 为 离散 型 的 ,回归 变量 是 连续 型 的 , 并 且 实 验 是 按 一 定 的 正 交 表 进 
行 的 。 

自 变量 为 离散 型 的 回归 模型 有 以 下 几 种 情况 。 

(1 ) 自 变 量 全 部 为 离散 型 ， 响 应 变量 是 连续 型 ， 并 且 试 验 是 按 合适 的 正 交 表 设计 量 ， 可 以 
按 以 下 公式 计算 各 参数 





Bn 


Ey 


(CD 
分 _ 了 了 a _IT6) 了 
n 


n n 
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式 中 : 7 为 所 有 试验 结果 的 和 ; n 为 试验 次 数 ; 7 为 第 7 个 自 变量 取水 平 三 的 试验 结果 和 。 
否则 按 下 式 计 算 
B=(X'X+L'L yy 
其 中 瑟 为 设计 矩阵 


1 SD S02) 600DGCnm) 
1 SD 50,2) -6,0mD)6,(m,7,) 


1 554D 50,2) 500D -6 (m,r,) 
I 0 0 


工 =|” ”全 | ,7 为 单位 答 阵 


(2 ) 响应 变量 是 连续 型 的 ， 回 归 变量 是 连续 型 与 离散 型 混合 的 。 这 时 要 将 连续 型 变量 离散 
化 统一 变换 成 离散 变量 ， 然 后 按 情况 ( 1) 进行 处 理 。 

(3 ) 响应 变量 y 是 离散 型 的 ， 即 y 只 能 属于 如 下 个 类 : 41,42,…4,。 这 时 将 进行 数量 
化 , 其 方法 是 : 当 3@ 属于 4 类 时 , 记 为 (79( 41)) 顺序 评 给 一 个 分 数 ,39 ( 441) = 天 12…， 
此 时 回归 预报 方程 合成 为 一 个 判别 函数 ， 这 样 便 可 以 根据 次 试验 y 所 出 现 的 类 型 得 分 来 确定 
判别 限 。 

试 在 "次 试验 中 , y 有 次 属于 4 (天 12-r) 且 守 =n， 用 

» fn +(t+ Dn 


i 
mth 


作为 判别 限 。 若 总 < 站 则 认为 9 属于 奴 类 ; 若 六 二 < 六 ,1=2,3,…,7 一 上 则 认为 9 属于 4 
类 ; 若 7 > 风 。 则 认为 巩 属 于 4 类。 

据 此 ， 可 编程 计算 如 下 。 

>>x=x1sread ('D:\ 劳 动工 时 预测 数据 ', 1, 'A2:D237"'); s 读 入 数据 

>> [beta, resid,R]=discrete regress (x,1); 


>> [beta, resid,R]=discrete regress (x,2); 


比较 两 种 方法 计算 的 结果 , 可 以 看 出 第 2 种 方法 得 到 的 回归 系数 为 0.9748, 大 于 第 1 种 方法 
所 得 到 的 0.7423, 第 1 种 方法 所 得 到 的 残 差 也 小 得 多 。 这 说 明 实 验 有 可 能 不 是 完全 按照 正 交 表 所 
设计 的 。 
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22.1 聚 类 分 析 概 述 


聚 类 是 将 数据 集 划 分 为 若干 相似 对 象 组 成 的 多 个 组 ( group ) 或 复 ( cluster ) 的 过 程 ， 使 得 同 
一 组 中 对 象 的 相似 度 最 大 化 , 不 同 组 中 对 象 间 的 相似 度 最 小 化 。 相 似 度 可 以 根据 描述 对 象 的 属性 
值 计算 ， 对 象 间 的 距离 是 最 常 采用 的 度量 指标 。 

聚 类 分 析 是 数据 分 析 中 的 一 种 重要 技术 , 它 的 应 用 极为 广泛 。 许 多 领域 中 都 会 涉及 聚 类 分 析 
方法 的 应 用 与 研究 工作 。 商 业 上 聚 类 分 析 是 细 分 市 场 的 有 效 工 具 , 基于 消费 者 行为 来 发 现 不 同类 
型 的 客户 群 , 并 刻画 不 同 客户 群 的 特征 ; 在 保险 行业 中 , 聚 类 分 析 通 过 消费 特征 来 鉴定 汽车 保险 
单 持 有 者 的 分 组 ; 在 房地产 行业 中 , 聚 类 分 析 根 据 住宅 类 型 、 价 值 和 地 理 位 置 等 特征 来 鉴定 一 个 
城市 的 房产 分 组 。 

从 统计 学 的 观点 看 , 聚 类 分 析 是 通过 数据 建 模 简化 数据 的 一 种 方法 。 作 为 多 元 统计 分 析 的 主 
要 分 支 之 一 ， 聚 类 分 析 方法 包括 系统 聚 类 法 、 加 入 法 、 动 态 聚 类 法 、 有 序 样品 聚 类 等 ， 主 要 的 度 
量 是 距离 或 相似 度 。 

从 机 器 学 习 的 角度 来 看 , 簇 相 当 于 隐藏 模式 。 聚 类 是 搜索 簇 的 无 监督 学 习 。 与 分 类 不 同 , 无 
监督 学 习 不 依赖 于 预先 定义 的 类 或 带 类 标号 的 训练 实例 , 它 是 以 某 种 距离 度量 为 基础 , 将 所 有 对 
象 进行 聚 类 ,使 得 同一 聚 类 间 的 距离 最 小 , 不 同 聚 类 之 间 的 距离 最 大 。 聚 类 分 析 可 以 在 几乎 没有 
相关 数据 先 验 信息 ( 如 统计 模型 ) 可 用 的 情况 下 分 析 数据 点 中 的 内 在 关系 以 进行 进一步 分 析 。 

从 实际 应 用 的 角度 看 ， 聚 类 分 析 是 数据 挖掘 的 主要 任务 之 一 。 例 如 , 在 科学 数据 探测 、 信 息 
检索 、 文 本 挖 据 、Web 数据 分 析 等 方面 的 数据 挖掘 中 ,， 聚 类 分 析 技术 都 起 着 重要 作用 。 在 商业 领 
域 , 肾 类 可 以 帮助 市 场 经 营 人 员 分 析 客户 数据 库 、 发 现 不 同类 型 的 客户 群 ， 按 购买 习惯 分 类 并 描 
述 客户 群 的 特征 。 在 生物 学 界 , 聚 类 可 以 用 于 动物 和 植物 分 类 , 对 具有 相似 功能 的 基 团 进行 分 类 ， 
了 解 种 群 的 内 存 结构 。 

就 数据 挖掘 功能 而 言 , 聚 类 能 够 作为 一 个 独立 的 工具 获得 数据 的 分 布 状况 ， 了 解 各 数据 组 的 
特征 ， 确 定 所 感 兴趣 的 数据 组 以 做 进一步 的 分 析 , 还 可 以 作为 其 他 数据 挖掘 任务 ( 或 分 类 、 关 联 
分 析 ) 的 预 处 理 步骤 ， 以 在 聚 类 分 析 所 生成 的 簇 上 进一步 处 理 。 

聚 类 分 析 是 一 个 具有 很 强 挑战 性 的 领域 ， 它 的 一 些 潜在 应 用 对 分 析 算 法 提出 了 特别 的 要 求 ， 
下 面 列 出 一 些 典 型 的 要 求 。 

(1 ) 处 理 不 同类 型 属性 的 能 力 。 在 实际 应 用 中 ， 聚 类 算法 不 仅 能 用 于 数据 值 类 型 数据 ， 而 
且 也 要 适应 于 其 他 类 型 的 数据 结构 ， 如 二 元 类 型 、 分 类 ( 标 称 ) 类 型 、 序 数 类 型 、 混 合 类 型 等 。 

(2 ) 对 大 型 数据 集 的 可 扩展 性 。 许 多 聚 类 算法 在 小 数据 集 上 有 效 。 随 着 大 型 数据 库 、 数 据 
仓库 的 广泛 应 用 ， 对 大 数据 集聚 类 时 许多 原 有 的 聚 类 算法 可 以 产生 偏差 ， 甚 至 出 现 错误 的 结果 。 
因此 需要 研究 具有 良好 可 扩展 性 的 聚 类 算法 。 

(3 ) 处 理 高 维 数据 的 能 力 。 大 型 数据 库 或 数据 仓库 可 能 有 若干 个 维 或 属性 ， 因 此 到 类 算法 
要 有 处 理 高 维 数据 的 能 力 ， 尤 其 当 数据 稀 朴 、 高 度 倾斜 时 更 是 如 此 。 

(4 ) 发 现任 意 形状 复 的 能 力 。 许 多 聚 类 算法 是 建立 在 距离 度量 基础 上 的 ， 倾 向 于 生成 球形 
的 、 大 小 和 密度 相近 的 簇 。 但 是 ， 数 据 集 中 实际 存在 的 簇 可 能 是 任意 形状 ， 簇 的 大 小 差异 较 大 ， 
密度 也 不 尽 相 同 。 研 究 能 够 发 现任 意 形状 得 的 聚 类 算法 是 非常 必要 的 。 

(5 ) 处 理 孤 立 点 或 “噪声 ”数据 的 能 力 。 数 据 集合 中 往往 包含 孤立 点 、 缺 失 值 、 未 知 或 错 
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误 的 数据 。 处 理 孤 立 点 时 ,应 该 考虑 两 个 方面 : 四 某 些 实际 问题 可 以 要 求 聚 类 算法 对 “噪声 ” 数 
据 具有 较 低 的 敏感 度 ， 以 免 导致 低 质量 的 聚 类 结果 , 因此 , 算法 应 考虑 排除 或 降低 来 自 孤立 点 的 
影响 ; @ 一 些 实际 问题 ( 如 对 商业 欺诈 的 分 析 ) 要 求 聚 类 算法 合理 地 发 现 孤 立 点 ， 而 不 是 如 人 中 
的 聚 类 算法 那样 将 孤立 点 排除 掉 或 尽量 减少 来 自 孤 立 点 的 影响 。 孤 立 点 探测 和 分 析 是 一 个 有 实际 
意义 的 数据 挖掘 任务 ， 称 为 孤立 点 挖掘。 

(6 ) 对 数据 顺序 的 不 敏感 性 。 为 了 提高 聚 类 结果 的 稳定 性 ， 应 该 研究 对 输入 数据 顺序 不 敏 
感 的 聚 类 算法 。 

(7 ) 对 先 验 知识 和 用 户 自 定义 参数 的 依赖 性 。 许 多 聚 类 算法 要 求 输入 特定 的 参数 ， 如 产生 
的 徐 的 数目 。 一 方面 参数 很 难 确定 ， 尤 其 是 对 高 维 数 据 集 ; 另 一 方面 ,这 类 算法 往往 对 输入 参数 
具有 敏感 性 ,参数 的 细微 变化 可 以 导致 显著 不 同 的 聚 类 结果 ， 另 外 参数 设置 加 重 了 用 户 负担 , 也 
难以 控制 聚 类 结果 的 质量 。 

(8 ) 聚 类 结果 的 可 解释 性 和 实用 性 。 聚 类 结果 应 该 是 可 理解 的 、 可 解释 的 和 可 用 的 。 

(9 ) 基于 约束 的 聚 类 。 现 实 应 用 中 总 会 出 现 其 他 约束 条 件 ， 聚 类 算法 在 考虑 这 些 限 制 的 情 
况 下 ， 仍 有 较 好 的 聚 类 结果 。 

聚 类 算法 主要 可 以 分 为 划分 法 、 层 次 法 、 基 于 密度 的 方法 、 基 于 网 络 的 方法 和 基于 模型 的 方 
法 。 要 注意 的 是 部 分 聚 类 算法 如 支持 向 量 机 只 能 处 理 二 分 类 问题 。 对 于 多 分 类 问题 一 般 是 将 其 转 
化 为 多 个 二 分 类 问题 , 即将 数据 集 分 成 为 多 个 二 分 类 问题 的 数据 子 集 , 在 每 一 个 子 集 上 进行 聚 类 
分 析 , 输出 为 各 个 分 类 器 结果 的 组 合 。 也 可 以 每 次 只 使 用 某 两 类 的 数据 进行 聚 类 分 析 ， 对 于 一 个 
未 知 的 测试 数据 ， 其 输出 是 支持 度 最 高 的 那个 类 。 


21.2 聚 类 分 析 中 的 数据 类 型 


相似 性 度量 是 衡量 变量 间 相互 关系 强 弱 、 联 系 紧密 程度 的 重要 方法 , 是 聚 类 分 析 的 基础 ， 其 
方式 与 数据 类 型 密切 相关 ， 数 据 类 型 不 同 ， 相 似 性 度量 的 方式 也 不 同 。 

从 广义 上 讲 , 数据 是 记录 在 介质 上 的 信息 ( 在 不 同 的 场合 可 以 称 为 数据 对 象 、 点 、 向 量 、 模 
式 、 事 件 、 案 例 、 样 本 或 实体 等 )， 它 是 数据 及 其 属性 的 集体 ， 其 表现 形式 可 以 是 数字 、 符 号 、 
文字 、 图 像 或 计算 机 代码 等 。 

对 于 数据 的 理解 不 仅 需要 了 解 其 表现 形式 , 而 且 还 需要 了 解数 据 的 语义 , 即 对 数据 含义 的 说 
明 ， 它 是 数据 对 象 ( 记录 ) 所 有 属性 的 集合 。 

属性 ( 也 称 为 特征 、 维 或 字段 ) 是 指 一 个 对 象 的 某 方面 性 质 或 特征 。 一 个 对 象 通过 若干 个 属 
性 来 刻画 其 特征 。 根据 其 属性 的 不 同 , 属性 可 分 类 标 称 ( Nominal )、 序 数 ( Ordinal )、 区 间 ( Interval ) 
和 比率 ( Ratio )。 

(1 ) 标 称 属性 ， 其 值 提供 足够 的 信息 以 区 分 对 象 ， 如 颜色 、 性 别 、 产 品 编号 等 。 这 种 属性 
值 大 小 的 比较 没有 实际 意义 。 

(2 ) 序数 属性 ， 其 值 提供 足够 的 信息 以 区 分 对 象 ， 如 客户 等 级 (贵客 卡 、 银 卡 、 金 卡 、 钻 
石 卡 )、 企 业 信用 评估 等 级 、 奖 励 等 级 等 。 

(3 ) 区间 属性 , 其 值 之 间 的 差 是 有 意义 的 , 但 比率 及 和 是 没有 意义 的 。 如 开户 日 期 、 摄 氏 温 度 。 

(4 ) 比率 属性 ， 其 值 之 间 的 差 和 比率 都 是 有 意义 的 ， 如 年 度 消费 总 额 、 通 话 时 长 等 。 
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误 的 数据 。 处 理 孤 立 点 时 ,应 该 考虑 两 个 方面 : 四 某 些 实际 问题 可 以 要 求 聚 类 算法 对 “噪声 ” 数 
据 具有 较 低 的 敏感 度 ， 以 免 导致 低 质量 的 聚 类 结果 , 因此 , 算法 应 考虑 排除 或 降低 来 自 孤立 点 的 
影响 ; @ 一 些 实际 问题 ( 如 对 商业 欺诈 的 分 析 ) 要 求 聚 类 算法 合理 地 发 现 孤 立 点 ， 而 不 是 如 人 中 
的 聚 类 算法 那样 将 孤立 点 排除 掉 或 尽量 减少 来 自 孤 立 点 的 影响 。 孤 立 点 探测 和 分 析 是 一 个 有 实际 
意义 的 数据 挖掘 任务 ， 称 为 孤立 点 挖掘。 

(6 ) 对 数据 顺序 的 不 敏感 性 。 为 了 提高 聚 类 结果 的 稳定 性 ， 应 该 研究 对 输入 数据 顺序 不 敏 
感 的 聚 类 算法 。 

(7 ) 对 先 验 知识 和 用 户 自 定义 参数 的 依赖 性 。 许 多 聚 类 算法 要 求 输入 特定 的 参数 ， 如 产生 
的 徐 的 数目 。 一 方面 参数 很 难 确定 ， 尤 其 是 对 高 维 数 据 集 ; 另 一 方面 ,这 类 算法 往往 对 输入 参数 
具有 敏感 性 ,参数 的 细微 变化 可 以 导致 显著 不 同 的 聚 类 结果 ， 另 外 参数 设置 加 重 了 用 户 负担 , 也 
难以 控制 聚 类 结果 的 质量 。 

(8 ) 聚 类 结果 的 可 解释 性 和 实用 性 。 聚 类 结果 应 该 是 可 理解 的 、 可 解释 的 和 可 用 的 。 

(9 ) 基于 约束 的 聚 类 。 现 实 应 用 中 总 会 出 现 其 他 约束 条 件 ， 聚 类 算法 在 考虑 这 些 限 制 的 情 
况 下 ， 仍 有 较 好 的 聚 类 结果 。 

聚 类 算法 主要 可 以 分 为 划分 法 、 层 次 法 、 基 于 密度 的 方法 、 基 于 网 络 的 方法 和 基于 模型 的 方 
法 。 要 注意 的 是 部 分 聚 类 算法 如 支持 向 量 机 只 能 处 理 二 分 类 问题 。 对 于 多 分 类 问题 一 般 是 将 其 转 
化 为 多 个 二 分 类 问题 , 即将 数据 集 分 成 为 多 个 二 分 类 问题 的 数据 子 集 , 在 每 一 个 子 集 上 进行 聚 类 
分 析 , 输出 为 各 个 分 类 器 结果 的 组 合 。 也 可 以 每 次 只 使 用 某 两 类 的 数据 进行 聚 类 分 析 ， 对 于 一 个 
未 知 的 测试 数据 ， 其 输出 是 支持 度 最 高 的 那个 类 。 


21.2 聚 类 分 析 中 的 数据 类 型 


相似 性 度量 是 衡量 变量 间 相互 关系 强 弱 、 联 系 紧密 程度 的 重要 方法 , 是 聚 类 分 析 的 基础 ， 其 
方式 与 数据 类 型 密切 相关 ， 数 据 类 型 不 同 ， 相 似 性 度量 的 方式 也 不 同 。 

从 广义 上 讲 , 数据 是 记录 在 介质 上 的 信息 ( 在 不 同 的 场合 可 以 称 为 数据 对 象 、 点 、 向 量 、 模 
式 、 事 件 、 案 例 、 样 本 或 实体 等 )， 它 是 数据 及 其 属性 的 集体 ， 其 表现 形式 可 以 是 数字 、 符 号 、 
文字 、 图 像 或 计算 机 代码 等 。 

对 于 数据 的 理解 不 仅 需要 了 解 其 表现 形式 , 而 且 还 需要 了 解数 据 的 语义 , 即 对 数据 含义 的 说 
明 ， 它 是 数据 对 象 ( 记录 ) 所 有 属性 的 集合 。 

属性 ( 也 称 为 特征 、 维 或 字段 ) 是 指 一 个 对 象 的 某 方面 性 质 或 特征 。 一 个 对 象 通过 若干 个 属 
性 来 刻画 其 特征 。 根据 其 属性 的 不 同 , 属性 可 分 类 标 称 ( Nominal )、 序 数 ( Ordinal )、 区 间 ( Interval ) 
和 比率 ( Ratio )。 

(1 ) 标 称 属性 ， 其 值 提供 足够 的 信息 以 区 分 对 象 ， 如 颜色 、 性 别 、 产 品 编号 等 。 这 种 属性 
值 大 小 的 比较 没有 实际 意义 。 

(2 ) 序数 属性 ， 其 值 提供 足够 的 信息 以 区 分 对 象 ， 如 客户 等 级 (贵客 卡 、 银 卡 、 金 卡 、 钻 
石 卡 )、 企 业 信用 评估 等 级 、 奖 励 等 级 等 。 

(3 ) 区间 属性 , 其 值 之 间 的 差 是 有 意义 的 , 但 比率 及 和 是 没有 意义 的 。 如 开户 日 期 、 摄 氏 温 度 。 

(4 ) 比率 属性 ， 其 值 之 间 的 差 和 比率 都 是 有 意义 的 ， 如 年 度 消费 总 额 、 通 话 时 长 等 。 
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属性 可 以 进一步 归 类 为 两 种 。 
(1) 分 类 或 定性 属性 ， 包 括 标 称 和 序数 属性 ， 取 值 为 集合 。 
(2 ) 数据 或 定量 属性 ， 包 括 区 间 和 比率 属性 ， 取 值 为 区 间 ， 可 以 是 整数 值 或 连续 值 。 
通常 数据 挖掘 算法 以 表格 形式 组 织 数据 以 形成 数据 集 ， 如 表 22.1 所 示 。 但 也 有 可 能 是 其 他 
的 形式 ， 需 要 经 过 适当 的 预 处 理 。 
表 22.1 数据 集 格式 样本 





客户 编号 通话 级 别 通话 总 费用 (元) 
N22011002518 市 话 + 国 内 长 途 16326 
C14005889674 市 话 + 国 内 长 途 27594 
N22005673821 批发 和 零售 业 市 话 + 国 内 长 途 63748 
3253789 市 话 + 国际 长 途 + 国内 长 途 80384 
DI400982435 市 话 + 国 际 长 途 59873 





数据 集 需要 考虑 三 个 方面 的 问题 。 

(1) 维度 : 它 是 指数 据 集中 的 对 象 具有 的 属性 个 数 总 和 。 根 据 维度 的 大 小 可 以 将 数据 集 分 
为 高 、 中 、 低 维 数据 集 。 维 度 越 高 ， 计 算 越 复杂 ， 经 常会 遇 到 “ 维 灾难 ”的 情况 ， 所 以 在 数据 挖 
据 中 一 般 需要 对 高 维 数据 进行 降 维 处 理 。 

(2 ) 稀 政 性 : 它 是 指数 据 集中 有 意义 的 数据 非常 少 。 超 市 购物 记录 、 文 本 数据 集 具有 典型 
的 稀 芷 性 。 数 据 的 稀 玻 性 影响 数据 的 有 效 性 、 存 储 方式 等 方面 。 

(3 ) 分 辩 率 : 可 以 在 不 同 的 分 辩 率 或 粒度 下 观察 数据 ， 而 且 在 不 同 的 分 辨 率 下 对 象 的 性 质 
也 不 同 。 数 据 中 隐藏 的 模式 依赖 于 分 辨 率 ,分辩 率 太 高 、 太 低 ， 都 得 不 到 有 效 的 模式 ， 针 对 具体 
应 用 ， 需 要 选择 合适 的 分 辩 率 或 粒度 。 

数据 集 的 类 型 可 以 分 成 以 下 三 类 。 


1. 记录 数据 


一 般 的 数据 挖掘 任务 都 是 假定 数据 集 是 记录 ( 数据 对 象 ) 的 集合 , 每 个 记录 都 由 相等 数目 的 
属性 构成 , 记录 之 间或 属性 之 间 没 有 明显 的 联系 。 记录 数据 通常 存放 在 平面 文件 或 关系 数据 库 中 。 
根据 数据 挖掘 任务 的 不 同 要 求 ， 记 录 数 据 也 可 以 有 不 同 的 种 类 。 

(1 ) 事务 数据 或 购物 复数 据 。 

事务 数据 是 一 种 特殊 类 型 的 记录 数据 , 其 中 每 个 记录 涉及 一 个 项 的 集合 。 典 型 的 事务 数据 如 
超市 零售 数据 ， 顾 客 一 次 购物 所 购买 的 商品 的 集合 就 构成 一 个 事务 ， 而 购买 的 商品 就 是 项 。 这 种 
类 型 的 数据 也 称 为 购物 篮 数据 。 

(2 ) 数据 矩阵 。 

如 果 一 个 数据 集中 的 所 有 数据 对 象 都 具有 相同 的 数据 属性 集 , 由 该 数据 对 象 可 以 看 作 多 维 空 
间 中 的 点 (向量 )， 其 中 每 一 维 代表 描述 对 象 的 不 同 。 这 样 的 数据 对 象 集 可 以 用 一 个 nxm 的 矩阵 
来 表示 ， 其 中 为 对 象 数 ( 行 或 列 )，m 为 属性 数 ( 列 或 行 ) 数据 和 矩阵 是 记录 数据 的 变 体 ， 可 以 
使 用 标准 的 矩阵 操作 对 数据 进行 变换 和 操纵 。 因 此 , 对 于 大 部 分 统计 数据 ,数据 矩阵 是 一 种 标准 
的 数据 格式 。 
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文本 数据 是 数据 矩阵 的 一 种 特殊 情况 , 可 以 用 稀 状 矩阵 表示 , 其 中 属性 类 型 相同 并 且 是 非 对 
称 的 ， 即 只 有 零 值 才 是 重要 的 。 在 信息 检索 领域 ， 文 本 被 看 成 是 出 现在 文本 中 的 关键 词 的 集合 ， 
这 些 关键 词 就 是 特征 项 。 利 用 特征 项 , 文本 可 以 表示 成 布尔 模型 、 向 量 模型 和 概率 模型 。 特 别 地 ， 
如 果 忽 略 文档 中 词 的 次 序 ， 则 文档 可 以 用 词 向 量 表示 ， 其 中 每 个 词 是 向 量 的 一 个 分 量 ( 属性 )， 
而 每 个 分 量 的 值 对 应 词 在 文档 中 出 现 的 次 数 。 





2. 基于 图 形 的 数据 


有 时 ， 图 形 可 以 方便 而 有 效 地 表示 对 象 之 间 的 关系 。 

(1 ) 带 有 对 象 之 间 联 系 的 数据 : 对 象 之 间 的 联系 常常 携带 重要 的 信息 。 在 这 种 情况 下 ， 数 
据 常 用 图 形 表示 。 特殊 地 , 数据 对 象 映 射 到 图 的 特点 , 而 对 象 之 间 的 联系 用 对 象 之 间 的 链 、 方 向 、 
权 值 等 表示 。 例 如 ,万维网 的 网 页 上 包含 文本 和 指向 其 他 页 面 的 链接 , 电话 通信 中 形成 不 同 的 社 
会 网 络 群 。 

(2 ) 具有 图 形 对 象 的 数据 : 如 果 对 象 具 有 结构 ， 即 对 象 包含 具有 联系 的 子 对 象 ， 则 这 样 
的 对 象 常用 图 表示 。 例 如 化 合 物 的 结构 可 以 用 图 形 表示 ,其 中 节点 是 原子 ,节点 之 间 的 链 是 化 


学 键 。 
3. 有 序数 据 


对 于 某 些 数据 类 型 ， 属 性 具有 涉及 时 间或 空间 序 的 联系 。 

(1 ) 时 序数 据 或 时 态 数据 ， 可 以 看 作 记录 数据 的 扩充 ， 其 中 每 个 记录 包含 一 个 与 之 相关 联 
的 时 间 , 通常 存放 包含 时 间 相关 属性 的 关系 数据 。 这 些 数据 可 能 涉及 若干 时 间 标 签 ,每 个 都 具有 
不 同 的 意义 。 例 如 , 在 超市 的 数据 库 中 ， 可 以 从 时 间 数 据 上 分 析出 某 商 品 的 消费 季节 ,每 位 顾客 
的 消费 周期 及 偏好 。 

(2 ) 序列 数据 是 一 个 数据 集合 ， 是 个 体 项 的 序列 ， 如 词 或 字母 的 序列 ， 用 来 存放 具有 不 同 
或 不 具有 具体 时 间 概 念 的 有 序 事件 的 序列 ， 或 者 顾客 购物 序列 、Web 点 击 流 和 生物 学 序列 等 。 

(3 ) 时 间 序列 数据 是 一 种 特殊 的 时 序数 据 ， 其 中 每 个 记录 都 是 一 个 时 间 序 列 ， 即 一 段 时 间 
的 测量 序列 ， 如 股票 交易 、 库 存 挖 据 和 自然 现象 等 。 在 分 析 时 间 序列 数据 时 ， 重 要 的 是 考虑 时 间 
自 相关 ， 即 如 果 两 个 测量 的 时 间 很 接近 ， 则 这 些 测量 的 值 通常 非常 相似 。 

(4 ) 空间 数据 包含 涉及 空间 的 数据 ， 或 地 理 信息 系统 、 医 学 图 像 等 。 空 间 数 据 的 一 个 重要 
特点 是 空间 自 相关 性 , 即 物理 上 靠近 的 对 象 在 其 他 方面 也 相似 , 如 地 球 上 相互 靠近 的 两 个 点 通常 
具有 相近 的 气温 和 降水 量 。 

(5 ) 流 数 据 是 一 种 可 以 动态 地 从 观测 台 流 进 和 流出 的 数据 ， 具 有 海量 甚至 是 无 限 的 ， 动 态 
变化 的 ,以 固定 的 次 序 流 进 和 流出 ， 只 允许 一 遍 或 几 遍 扫描 ,要求 快 速 响应 等 特点 。 数 据 流 的 典 
型 例子 包括 电力 供应 、 网 络 通信 、 股 票 交易 、 银 行 、 电 信 及 气象 等 行业 数据 。 


22.3 ”相似 性 度量 
通常 具有 若干 属性 的 对 象 间 的 相似 性 用 单个 属性 的 相似 性 的 组 合 来 定义 。 
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22.3.1 属性 间 的 相似 性 度量 


1. 标 称 和 区 间 属 性 

由 于 标 称 属性 只 含有 对 象 的 相 异 性 信息 , 因此 两 个 对 象 只 有 相同 或 不 同 的 值 , 如 果 属 性 值 匹 
配 ， 则 相似 度 定义 为 1， 否 则 为 0; 相 异 度 则 与 之 相反 ， 即 属性 值 匹配 ， 相 异 度 为 0， 否则 为 1。 

对 于 区 间 属 性 ， 则 用 它们 的 差 值 的 绝对 值 来 度量 相 异 性 。 表 22.2 为 不 同属 性 情况 下 的 属性 














相似 度 度量 方法 。 
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表 22.2 简单 属性 的 相 异 度 与 相似 度 定义 
属性 类 型 相似 度 
ee [0 如 果 re=y 1 如 果 x=y 
标 称 型 1 如 果 xzy 0 如 果 x 了 y 


区 间 qd dx-y| el 


2. 序数 和 比率 数值 属性 


(1) 序数 属性 。 序 数 属性 变量 包括 分 类 的 和 连续 的 两 种 类 型 。 一 个 分 类 序数 属性 与 一 个 标 
称 属 性 类 似 ， 不 同 的 是 对 应 M 个 状态 的 M 个 顺序 值 是 按 一 定 次 序 排列 的 ， 它 有 助 于 记录 一 些 不 
便于 客观 度量 的 主观 评价 。 例 如 职称 就 是 一 个 分 类 的 序数 属性 ， 按 助教 、 讲 师 、 副 教授 、 教 授 的 
顺序 排列 。 一 个 连续 的 序数 属性 看 上 去 就 像 一 组 未 知 范围 的 连续 数据 , 但 它 的 相对 位 置 要 比 它 的 
实际 数值 有 意义 ,顺序 是 主要 的 ,实际 大 小 是 次 要 的 。 如 比赛 的 名 次 ,通常 名 次 比 排名 的 具体 位 
置 更 有 意义 。 一 个 序数 属性 的 集合 可 以 映射 到 一 个 等 级 集合 上 ,然后 通过 等 级 来 描述 差异 ,其 差 
异 程度 计算 如 下 。 在 以 下 定义 中 ,假设 区 间 是 相等 的 ， 但 事实 可 能 并 非 如 此 。 

。 “属性 /有 Mr 个 有 序 状态 ， 将 属性 值 y 蔡 换 为 相应 的 等 级 wy，rjy e (1,2,…,My) 

。 ”对 序数 属性 等 级 wy 作 变 换 =j = 二 ， 将 其 映射 到 区 间 [0.1] 上 。 

。 ”利用 有 关 区 间 属 性 的 任 一 种 距离 计算 公式 来 计算 差异 程度 。 

例如 考虑 一 个 在 标 度 | poor、fair、ok、good、woonderful 上 } 测量 糖 的 质量 的 属性 ， 产 品 1、2 
和 3 分 别 评定 为 woonderful 、good 与 ok。 为 了 评价 产品 的 相似 度 ， 可 以 将 属性 映射 到 某 一 等 级 
上 {poor=1、fair=2、ok=3、good=4、woonderful = 5 |， 这样 就 可 以 计算 产品 间 的 相 异 度 : 
d(1,2)=(5 一 4)/4=0.25，d(1,3)=(5 一 3)/4=0.5。 可 见 ， 产 品 1 与 2 较为 接近 ， 符 合 直观 观察 。 

(2 ) 比率 数值 属性 。 比 率 数值 属性 是 在 非 线 性 尺度 上 取得 的 测量 值 ， 例 如 指数 比率 ， 可 以 
近似 描述 为 , 典型 的 例子 有 细胞 繁殖 增长 的 数目 描述 。 在 计算 这 类 数值 变量 所 描述 对 象 间 的 距离 
时 ， 有 以 下 三 种 方式 。 

。 ”将 比率 数值 变量 当 作 区 间 间 隔 数 量 数 值 变量 来 进行 计算 处 理 。 该 方法 可 能 会 导致 非 线 性 

的 比例 尺度 扭曲 。 
。 ”将 比率 数值 变量 看 成 是 连续 的 序数 属性 进行 处 理 。 
。 ”根据 实际 情况 ， 利 用 一 定 的 变换 方式 ( 如 对 数 变换 ylog(xp ) 来 处 理 得 到 的 新 变量 yy 
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并 将 其 当 作 区 间 变 量 进 行 处 理 。 此 方法 效果 较 好 。 
22.3.2 “对象 间 的 相似 性 度量 

对 象 间 的 相似 性 度量 即 为 多 个 属性 整体 的 相似 性 度量 的 计算 ， 它 涉及 描述 对 象 的 属性 类 型 ， 
需要 将 不 同属 性 上 的 相似 度 整合 成 一 个 总 的 相似 度 来 表示 。 


假设 使 用 个 属性 来 描述 数据 记录 , 将 每 条 记录 看 成 维 空间 中 的 一 个 点 ,相互 间距 离 越 小 , 相 
似 系数 越 大 的 记录 间 的 相似 程度 越 大 。 








22.3.3” 相 异 度 和 矩阵 
按 n 个 对 象 两 两 则 的 相 异 度 构 建 阶 和 矩阵 ， 它 是 对 称 的， 只 需 写 出 上 三 角 或 下 三 角 即 可 。 
0 
qd(2,1) 0 


qd(3,1) d(3,2) 0 


d(n,1) d(n,2) -- --- 0 


其 中 : dli) 表 示 对 象 i 与 j 的 相 异 度 ， 它 是 一 个 非 负 的 数值 。 当 对 象 ?和 越 相 似 或 “接近 ”时 ， 
dli 力 值 越 接 近 于 0; 而 对 象 i 和 越 不 相同 或 相距 “ 越 远 ” 时 ，dliy) 值 越 大 。 相 异 度 矩阵 是 对 象 一 
对 象 结构 的 一 种 数据 表达 方式 。 

多 数 聚 类 算法 都 建立 在 相 异 度 矩 阵 基础 上 , 如 果 数 据 是 以 数据 矩阵 形式 给 出 的 ,就 要 将 数据 
和 矩阵 转化 为 相 异 度 矩 阵 。 

计算 对 象 间距 离 是 经 常 采 用 的 求 相 异 度 方法 。 设 两 个 p 维 向 量 Xr-Caxip, … xp) ”和 
匡 -Ci wep) 分 别 表示 两 个 对 象 ， 根 据 属性 特征 的 不 同 ， 有 多 种 形式 的 距离 度量 可 以 采用 。 


1. 数值 属性 相似 性 度量 


(1) 距离 度量 。 

@ 闵可夫 ( Minkowski ) 距离 。 

对 于 任意 样本 对 象 p=[pip2,… ,pm] 与 9=[q1.92,…,4m]， 它 们 之 间 闵 可 夫 ( Minkowski ) 距离 定 
义 为 


dap0- |Blp 叶 


其 中 : xe [1o]。 
闵可夫 距离 是 无 限 个 距离 度量 的 概 化 ， 当 :=1 时 为 曼 哈 坦 ( Manhattan ) 距离 : 


(PD= 只 一 gj1， 当 :2 时 为 玖 几 里 得 (Euclidean ) 距离 : ds(p.9)= | 下， 当 x 
i i 


一 o 时 为 切 比 雪 夫 ( Chebyshev ) 距离 : 4,(p.q)= max |p; 一 qj|。 


1<i<m 
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令 对 象 的 维 数 p=2， 在 二 维 空间 中 考虑 到 原点 为 常数 的 
所 有 点 形成 的 形状 ， 可 以 直观 地 看 出 : 菱形 对 应 于 曼 哈 坦 距 
离 ; 圆 形 对 应 于 欧 几 里 得 距离 ;方形 对 应 于 切 比 雪 夫 距 离 ， 
如 图 22.1 所 示 。 

直接 使 用 闵可夫 距离 的 缺点 是 量 纲 或 度量 单位 对 聚 类 结 
果 有 影响 ， 为 消除 此 影响 ,通常 需要 对 数据 进行 规范 化 。 

@ Canberra 距离 。 





ww |p;:-gi| 
2 Pi I+lg; | 
Canberra 距离 可 以 看 成 一 个 相对 Manhattan 距离 ， 它 克 图 22.1 几 种 距离 下 与 原点 相距 为 
服 了 Minkowski 距离 受 量 纲 影响 的 缺点 。Canberra 距离 对 默 常数 的 点 形成 的 形状 
认 值 是 稳健 的 ， 当 两 个 坐标 都 接近 于 0 时 ，Canberra 距离 对 
微小 的 变化 很 敏感 。 
图 马 哈 拉 诺 比 斯 距离 。 


dcanp (pq) 二 


da(Xis¥))=(X;—X)) ACX; —X)) 


其 中 : 4 为 正定 矩阵 。 
在 以 上 距离 度量 表达 式 中 , 还 可 以 根据 每 个 变量 的 重要 性 为 其 赋 一 个 权重 , 如 加 权 的 欧 几 里 
得 距离 形式 为 


p LU2 
dX,X) = -x -2 | 区 一 xi ?| 


(2 ) 相似 系数 。 

距离 度量 还 可 以 利用 基于 相似 系数 定义 的 距离 ， 它 多 用 于 变量 指标 的 相似 性 度量 。 
两 个 对 象 间 的 相似 系数 可 以 有 多 种 定义 形式 ， 常 用 的 有 以 下 几 种 。 

@ 夹 角 余弦 。 








Zpixg; 


cos(p,q) =—==—————= 
[Ex 


夹 角 余弦 忽略 各 个 向 量 的 绝对 长 度 , 着 重 从 形状 方面 考虑 它们 间 的 关系 。 取 值 范围 在 [-1.1]。 
@ 相关 系数 。 


了 下 -DDx(G-9) 


Cor(p,9) = 一 二 一 a 
[Ew -D x2,(g: -9) ) 





其 中 : 己 、9 为 均值 。 
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相关 系数 是 向 量 标准 化 后 的 夹 角 余 弦 ， 取 值 范围 在 区 间 [-1.1]， 它 表示 两 个 向 量 的 线性 相关 
程度 。 

@ 广义 Jaccard 系数 。 

广义 Jaccard 系数 又 称 Tanimoto 系数 ， 取 值 范围 在 区 间 [0,1] 之 间 ， 广 泛 用 于 信息 检索 与 生物 
学 分 类 中 ， 在 二 元 属性 情况 下 简化 为 系数 。 














2 pixg; 
TP +D -Dpxg 


EJ(p,q)= 


2. 二 值 属性 的 相似 性 度量 





一 个 二 值 属 性 变量 只 有 0 或 1 两 种 状态 , 表示 属性 的 存在 与 否 。 假设 二 值 属性 对 象 p 和 g 取 
值 情况 如 表 22.3 所 示 ， 其 中 m4 表示 对 象 p 和 g 中 均 取 值 1 的 二 值 属 性 个 数 ，m 表 示 对 象 p 取 1 
而 对 象 " 取 0 的 二 值 属性 个 数 , mi 表示 对 象 p 取 0 而 对 象 g 取 1 的 二 值 属性 个 数 ,mw 表示 对 象 p 
和 g 均 取 0 的 二 值 属性 个 数 。 


表 22.3 二 值 属性 对 象 p 和 9 的 取 值 情况 





二 值 属性 相似 性 存在 对 称 和 不 对 称 两 种 情况 。 如 果 一 个 二 值 属 性 的 两 种 状态 所 表示 的 内 容 同 
等 重要 ， 则 它 是 对 称 的 ， 否 则 为 不 对 称 的 。 例 如 ， 给 定 属性 变量 smoker， 它 描述 一 个 病人 是 否 
吸烟 的 情况 , 用 0 或 1 进行 编码 来 表示 一 个 病人 吸烟 状态 是 同等 重要 的 ， 因此 是 对 称 变量 。 基 于 
对 称 二 值 变 量 所 计算 的 相似 度 称 为 不 变相 似 性 ( 即 变量 编码 的 改变 不 会 影响 计算 结果 )。 对 于 不 
变相 似 性 ， 常 用 简单 匹配 相关 系数 来 描述 对 象 p 和 gq 之 间 的 差异 程度 ， 其 定义 为 


Mol+ mo 





d(p.q)= 


noo 十 mol + io + Fy 

其 中 : mo+ no 表示 取 值 不 同 的 属性 个 数 ; noo+ ma 表示 取 值 相 同 的 属性 个 数 。 

对 于 不 对 称 的 二 值 变量 , 如 果 认 为 取 值 1 比 取 值 0 更 重要 、 更 有 意义 , 那么 这 样 的 二 值 变 量 
就 好 像 只 有 一 种 状态 。 例 如 属性 disease 的 检测 结果 是 阳性 (P ) 或 阴性 (入), 显然 这 两 个 检测 结 
果 的 重要 性 是 不 一 样 的 。 通 常 将 少见 而 重要 的 情况 用 1 表示 ( 例 HIV 阳性 )， 而 将 其 他 不 重要 的 
情况 用 0 表示 (例如 HIV 阴性 )， 这 种 情况 下 对 象 p 和 4 之 间 的 差异 程度 评价 通常 采用 Jaccard 
系数 ， 其 定义 为 
Nol+ mo 


d(p,g)= 
Mos + mo + Im 


3. 混合 属性 相似 性 度量 
在 实际 应 用 中 ,数据 对 象 往往 包含 多 种 类 型 的 属性 ， 因 此 使 用 混合 类 型 的 属性 描述 。 这 需 
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要 将 不 同类 型 的 属性 差异 度 组 合成 一 个 整体 ， 把 所 有 属性 间 的 差异 转换 到 区 间 [0,1] 中 。 
假设 数据 集 包 含 m 个 不 同类 型 的 属性 ， 对 象 p 和 g 之 间 的 差异 度 距离 (推广 闵可夫 距离 ) 


其 中 ,如果 pp 或 数据 不 存在 (对象 p 或 对 象 p 的 属性 /无 测量 值 ), 或 p=g=0， 且 属 性 为 非 对 
称 二 值 属性 , 则 标记 59 = 0 ,否则 5 =1 ，59 表示 属性 /为 对 象 P 和 对 象 4 之 间 的 差异 程度 所 
做 的 贡献 ， 对 象 p 和 对 象 g 在 属性 上 的 相 异 度 dr(P,9g) 根据 其 属性 类 型 不 同 进行 相应 计算 。 
。 ”车 必 性 /为 二 元 属性 或 标 称 属性 , 则 : 如 果 py=gy, 那么 dy(p,q)=0， 否则 dj(p,q)=1。 
。 ” 若 属 性 / 为 序数 型 属性 ， 计 算 对 象 p 和 对 象 4 在 属性 /上 的 秩 (或 等 级 ) ry 和 rg 


dj(p, n=-L. 
Mj 
。 ” 若 属性 /为 区 间 标 度 属性 , 则 dr (P， n=-— Ea, maxj、miny 分 别 表示 属性 /的 最 
学 也 
大 值 和 最 小 值 。 


。 ” 若 属 性 了 为 比率 数值 属性 ， 则 可 以 通过 变换 将 其 转换 成 区 间 标 度 属性 来 处 理 。 
这 样 ， 当 描述 对 象 的 属性 是 不 同类 型 时 ,对象 之 间 的 相 异 度 也 能 够 计算 , 且 取 值 在 [0,1] 区 间 。 


4. 由 距离 度量 转换 而 来 的 相似 性 度量 

可 以 通过 一 个 单调 递减 函数 , 将 距离 转换 成 相似 性 度量 。 相似 性 度量 的 取 值 一 般 在 区 间 [0.1] 
之 间 。 值 越 大 ， 说 明 两 个 对 象 越 相 似 。 常 用 的 方式 有 : 

。 ”采用 负 指 数 函数 将 距离 转换 为 相似 性 度量 s， 即 : s(P,g) =e “29 


。 ”采用 距离 的 倒数 作为 相似 性 度量 ， 即 : sp.D -Tr 


。 ” 若 距 离 在 0~1 之 间 ， 可 采用 与 1 的 差 作为 相似 系数 ， 即 : s(p,q)=1-d(p,q) 
在 聚 类 分 析 中 需要 根据 数据 类 型 、 应 用 目标 等 因素 选择 距离 函数 。 


22.4” 聚 类 的 特征 


聚 类 是 相似 事物 的 集合 , 从 数学 角度 则 难以 给 出 一 种 通用 严格 的 定义 ,常用 的 有 以 下 几 种 定 
义 形式 ， 可 以 适用 于 不 同 的 场合 。 

设 G 为 元 素 的 集合 ， 它 共有 m 个 元 素 ， 记 为 g;:， 地 1,2,…,m， 另 外 给 定 一 个 闪 值 Tr>?0， 则 有 
以 下 几 种 类 定义 : 

(1) 若 G 中 任意 两 个 元 素 g: 和 gj 之 间 的 距离 不 大 于 阔 值 ， 即 有 dy<T7， 则 称 G 为 类 。 
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(2) 若 G 中 任意 元 素 g% 与 其 他 元 素 间 的 距离 均值 不 大 于 阔 值 ， 即 有 二 > dT 则 


1L<Kk 
称 G 为 类 。 
(3 ) 对 G 中 任意 元 素 g;， 总 存在 另 一 个 元 素 g， 它 们 的 距离 不 大 于 阔 值 ， 即 有 dy 寺 T7， 则 
称 G 为 类 。 
若 将 G 的 元 素 g 视 为 随机 向 量 丘 ， 则 可 用 以 下 几 种 特征 来 描述 类 。 





(1 ) 类 的 重心 。 
类 的 重心 即 为 各 元 素 均 向 量 
1 
三 i 
(2 ) 类 的 样本 离 差 矩 阵 与 样本 协 方差 矩阵 。 
它们 的 定义 分 别 为 


如 = > —xe)(x;— je 
局 


So = 一 如 
m 


(3 ) 类 的 直径 。 
类 的 直径 也 有 多 种 定义 ， 比 较 简单 的 有 


46 = > 一 xc)(x —xe)” 
= 


22.5 ” 聚 类 准则 


在 模式 分 类 中 ,可 以 有 多 种 不 同 的 聚 关 方式 , 将 未 知 类 别 的 样本 划分 到 对 应 的 类 中 。 在 这 个 
过 程 中 , 需要 确定 一 种 桶 类 准则 来 评价 各 种 聚 类 方法 的 优 务 。 事 实 上 各 种 到 类 方法 的 优 和 只 是 就 
某 种 评价 准则 而 言 ， 任 何 一 种 票 类 方法 要 满足 各 种 聚 关 准 则 是 非常 困难 的 。 

聚 类 准则 的 确定 主要 有 两 各 方式 。 

(1 ) 试探 方式 。 任 直觉 和 经 验 ， 针 对 实际 问题 给 定 一 种 模式 相似 性 测度 的 闭 值 ， 按 最 近邻 
规则 指定 待 分 类 样本 属于 某 一 类 。 例 如 在 以 “距离 ” 为 相似 性 测度 时 ， 规 定 一 个 辣 值 ， 如 果 待 测 
样本 与 某 一 类 的 距离 小 于 辣 值 ， 则 归 入 该 类。 

(2 ) 聚 类 准则 函数 法 。 定 义 一 各 聚 类 准则 函数 ， 其 函数 值 与 样本 的 划分 有 关 ， 当 此 值 达到 
自 侍 时， 就 认为 样本 得 到 了 最 人 的 划分 。 常 用 的 聚 类 函数 有 误差 平方 和 准则 及 类 间距 离 和 准则 。 

@ 误差 平方 和 准则 。 

误差 平方 和 也 称 为 关内 距离 和 准则 ， 是 一 各 简单 而 又 应 用 广泛 的 桶 类 准则 ， 其 表达 式 为 

7= 祥 了 xz- 


i Tea 


式 中 : ji 为 类 wi 的 均值 ; .7 为 样本 与 聚 类 中 心 的 函数 ,表示 各 样本 到 其 被 划 并 类 别 的 中 心 的 距离 
之 平方 和 。 最 佳 的 划分 就 是 使 了 最 小 的 那 种 划分 。 
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该 准则 适用 同类 样本 比较 密集 ， 各 类 样本 数目 相差 不 大 ， 而 且 类 间距 离 较 大 时 的 情况 。 当 各 
类 样本 数 相差 很 大 且 类 间距 离 较 小 时 , 采用 该 准则 就 有 可 能 将 样本 数 多 的 类 拆 成 两 类 或 多 类 , 从 
而 出 现 错误 聚 类 。 

@ 类 间距 离 和 准则 或 离散 度 准则 。 

类 间距 离 和 定义 为 











J= 六 ww -OF -用 


其 中 : ys、 分别 为 类 w; 和 全 部 样本 的 均值 。 
加 权 的 类 间距 离 和 定义 为 


=D -7W -人 


对 应 一 种 划分 ,可 求 得 一 个 类 间距 离 和 。 类 间距 离 和 准则 是 找到 使 类 间距 离 和 最 大 的 那 种 
划分 。 

事实 上 ， 类 间距 离 的 和 类 内 距离 的 统称 为 离散 度 和 矩阵 。 

类 内 离散 度 和 矩阵 % 和 总 类 内 离散 度 矩 阵 5 分 别 为 


3 = 忆 C-A)Gc-A7 


xE@ 


Su = ys, 


i=l 


类 间 离 散 度 矩阵 
Ss = Tn A -人 
总 离散 度 和 矩阵 


S = DA 
xexX 


如 果 采 用 最 小 化 类 内 离散 度 矩 阵 的 迹 作为 准则 函数 , 可 以 同时 最 小 化 类 内 离散 度 迹 和 最 大 化 
类 间 离 散 度 离散 度 迹 。 


22.6 划分 方法 


对 于 一 个 给 定 的 个 对 象 或 元 组 的 数据 库 , 采用 目标 函数 最 小 化 的 策略 , 通过 迭代 把 数据 分 
为 个 块 , 每 个 块 为 一 个 徐 ， 这 就 是 划分 方法 。 划 分 方法 要 满足 两 个 条 件 : 一 是 每 个 分 组 至 少 包 
含 一 个 对 象 ; 二 是 每 个 对 象 必 属于 且 仅 属于 某 一 个 分 组 。 

常见 的 划分 方法 有 -均值 方法 和 -中 心 点 方法 。 其 他 方法 都 是 这 两 种 方法 的 变形 。 

k- 均 值 方法 和 -中 心 点 方法 已 在 第 2 篇 中 做 过 介绍 ， 在 此 只 介绍 EM 算法 。 

EM 算法 即 为 期 望 最 大 化 算法 不 将 对 象 明确 地 分 到 某 个 徐 , 而 是 根据 表示 隶属 可 能 性 的 权 来 
分 配对 象 。 也 就 是 说 ,在 入 之 间 没 有 严格 的 边界 。 新 的 均值 基于 加 权 度 量 值 计算 。 

在 实际 应 用 中 , 相当 多 的 问题 属于 数据 残缺 问题 , 不 能 直接 观察 到 的 变量 称 为 隐 含 变量 , 任 
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何 含有 隐 含 变量 的 模型 都 可 以 归 为 数据 残缺 问题 。EM 算法 是 解决 数据 残缺 问题 的 一 个 十 分 有 效 
的 算法 。 


令 D={x(1)x(2),-… x(n)} 为 n 个 观察 到 的 数据 向 量 组 成 的 集合 ， 琴 ={z(1),z(2),… ,z(m)} 表 示 隐 
含 变量 Z 的 ”个 值 ， 分 别 与 观察 到 的 数据 点 一 一 对 应 ， 即 zx) 与 数据 点 x@?) 相 联系 ，zGi) 表 示 数 据 
x(G) 的 不 可 见 聚 类 标签 。 


可 以 把 观察 到 的 数据 的 对 数 似 然 写 为 
1(9)=logp(D19)=log》 p(D.H1|O) 
其 中 右 侧 的 求 和 项 表明 , 观察 到 的 似 然 可 以 表示 为 观察 到 的 数据 和 隐藏 数据 的 似 然 对 隐藏 值 的 求 
和 ; P(D, 可 0) 为 未 知 参数 9 为 参量 的 概率 模型 。 
设 CC 为 残缺 数据 五 的 任意 概率 分 布 ， 可 以 用 以 下 方式 表示 似 然 ; 


1(O) = DEAD 19) 


可 PCD.EIO > p(D.HIO) 
082,Q( om > 四 Zo ”oD 
和 = 之 2CDlogP(D， HI| WD+FOD gs 0 
-reg 
函数 KKO，g 是 要 最 大 化 的 似 然 函数 Kg) 的 下 限 ， 算 法 重复 以 下 两 个 步骤 直至 收敛: 
(1) 卫 步骤 : 同 定 参 数 9， 使 相对 于 分 布 2 最 大 化 
(es =argmax F(O.0°) 
(2 ) M 步 骤 : 固定 分 布 O(D, 使 相对 于 参数 9 最 大 化 
Ca =argmax F(O™.6°) 
可 以 证 明 , 在 EE 步骤 中 当 Q@** = p(H#|D,0*) 时 似 然 达到 最 大 值 。 对 于 这 个 2 值 , 不 等 式 变 
成 了 等 式 : 1(69 = F(2.69) 


在 M 步 又 中 ， 因 为 下 中 的 第 二 项 不 依赖 于 9， 最 大 化 问题 就 简化 为 最 大 化 五 中 的 第 一 项 ， 
从 而 得 到 





Ca =argmax Dp(HIDO")log p(HID.0") 
H 





在 王 步 又 中 ， 以 参数 向 量 的 特定 设置 为 条 件 ， 估 计 隐 藏 变量 的 分 布 , 在 M 步骤 中 , 保持 
2 不 变 ， 选 取 新 的 参数 9"1， 使 观察 到 的 数据 的 期 望 对 数 似 然 最 大 化 。 通 过 E 步骤 和 M 步 又 的 
和 迭代 ， 求 出 收 钱 的 参数 解 。 

22.7 ”层次 方法 


层次 聚 类 法 又 称 树 聚 类 算法 ， 包 括 “ 自 底 向 上 ”的 凝聚 法 和 “ 自 顶 向 下 ”的 分 裂 法 。 凝 聚 法 
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何 含有 隐 含 变量 的 模型 都 可 以 归 为 数据 残缺 问题 。EM 算法 是 解决 数据 残缺 问题 的 一 个 十 分 有 效 
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先 将 所 有 对 象 各 自作 为 复 ， 将 最 “靠近 ”的 复 首 先进 行 聚 类 ， 再 将 这 个 类 和 其 他 类 中 最 “接近 ” 
的 得 合 并 ,该 过 程 递 归 进 行 直至 所 有 对 象 都 聚集 成 一 个 复 或 满足 一 个 终止 条 件 为 止 。 分 裂 法 正好 
相反 ， 先 将 所 有 对 象 看 成 一 个 簇 ， 然 后 割 成 两 个 ， 使 一 个 自 中 的 对 象 尽 可 能 “远离 另 一 个 复 中 对 
象 ， 再 递归 分 制 ， 直 至 每 个 对 象 都 自 成 一 个 复 或 满足 某 个 终止 条 件 为 止 。 
凝聚 或 分 裂 的 过 程 可 用 树 形 图 直观 表示 ,该 图 显示 簇 一 子 复 联 系 和 复合 并 ( 凝聚 ) 或 分 裂 的 
次 序 。 在 层次 聚 类 方法 中 , 距离 定义 非常 重要 ， 簇 间距 离 描述 两 类 艇 关系 ,比较 常 用 的 定义 有 如 
下 几 种 。 
(1 ) 最 短 距离 ( 单 连接 方法 ) 
人 GO) lp-p'll 
(2 ) 最 长 距离 ( 完全 链接 方法 ) 
da (CO) = ,Min llp-p'll 
(3 ) 中 间距 离 (平均 链接 方法 ) 


dna(CsC)=— 5 Tlp-p'l 


Ninj pecip'eCy 





(4 ) 均值 距离 (质心 方法 ) 
dinean (Ci» C;) < ms; —mj | 
对 象 间距 离 函 数 有 了 欧 氏 距离 、 闵 可 夫 距 离 、 马 氏 距 离 等 , 同样 地 , 簇 间距 离 或 相似 度 也 有 多 
种 选择 ,不同 的 距离 函数 可 以 得 到 不 同 的 层次 聚 类 方法 。 图 22.2 给 出 了 凝 肾 的 和 分 裂 的 层次 肾 
类 方法 的 处 理 过 程 。 
分 裂 的 
一 | 第 0 步 


一 第 ! 步 











图 22.2 凝聚 的 和 分 裂 的 层次 聚 类 方法 
层次 聚 类 方法 的 优点 在 于 可 以 在 不 同 粒 度 水 平 上 对 数据 进行 探测 , 而 且 容易 实现 相似 度量 或 
距离 度量 ， 但 是 ,单纯 的 层次 聚 类 算法 终止 条 件 含糊 〈 一 般 需 人 为 设 定 )， 而 且 执行 合并 或 分 裂 
簇 的 操作 后 不 可 修复 , 这 很 可 能 导致 聚 类 结果 质量 很 低 。 由 于 需要 检查 和 估算 大 量 的 对 象 或 篮 才 
能 决定 自 的 合并 或 分 裂 , 所 以 这 种 方法 的 可 扩展 性 较 差 。 因此 , 通常 考虑 把 层次 聚 类 方法 与 其 他 
方法 如 夫 代 重 定位 方法 相 结合 来 解决 实际 聚 类 问题 。 
层次 聚 类 和 其 他 聚 类 方法 的 有 效 集成 可 以 形成 多 阶段 聚 类 ， 能 够 改善 聚 类 。 
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22.7.1 ”利用 层次 方法 的 平衡 迭代 归 约 及 聚 类 


对 于 海量 数据 的 聚 关 问题 , 可 以 用 BIRCH 算法 来 处 理 。 该 方法 是 一 种 非常 有 效 的 聚 类 技术 ， 
用 于 欧 氏 空间 数据 , 即 平抑 值 有 意义 的 数据 ,算法 单 遍 扫 描 数 据 集 就 可 生成 较 好 的 聚 类 , 一 亡 或 
多 志 的 扫描 可 以 改进 聚 类 质量 。 

聚 类 特征 和 CF- 树 是 BIRCH 算法 的 关键 ， 聚 类 特征 的 定义 如 下 。 

在 一 个 竹中 给 定 W 个 4- 维 数据 点 48}(=1,2,… 由， 聚 类 特征 定义 为 一 个 三 元 组 
CF-= CSS) ， 其 中 Y 是 聚 类 中 数据 点 的 数量 ， 瑟 是 N 个 数据 点 的 线性 和 ， 即 六 忆 ，SS 

i=1 


是 入 个 数据 点 的 平方 和 ， 即 六 这 。 


i=1 

聚 类 特征 具有 加 和 性 ， 假 设 有 两 个 不 交 的 得 的 聚 类 特征 分 别 为 CE =(M,LSi,SS,) 和 

CE, =(N,,LS2,SS,) ， 由 这 两 个 合并 形成 的 新 的 簇 的 聚 类 特征 为 
CF=CR +CP =(N +N,,LS!+LS,,SS, +SS,) 

从 而 可 知 , 簇 的 CF 是 可 存储 的 ， 而 且 在 合并 簇 或 加 入 新 数据 点 时 ，CF 是 可 进行 增 量 计 算 的 。 

签 是 数据 点 的 集合 ，BIRCH 算法 中 只 存储 聚 类 特征 汇总 。 与 存储 徐 内 所 有 点 的 信息 相 比 ， 
存储 聚 类 特征 汇总 不 仅 效率 高 ， 而 且 可 以 保证 准确 度 。 

CF 树 存储 了 层次 聚 类 的 聚 类 特征 ， 它 是 一 棵 带 有 两 个 参数 的 高 度 平 衡 的 树 ， 这 两 个 参数 为 
分 支 因 子 孔 和 闪 值 T。 其中, 非 叶子 节点 至 多 有 8 个 形 如 [CFischildi](i= 1,2-…,B8) 的 项 , child; 是 指 
向 第 i 个 子 代 节 点 的 指针 ，CF; 是 该 子 代 节 点 表示 的 子 簇 的 察 类 特征 ， 非 叶子 节点 表示 由 所 有 子 
代 节 点 表示 的 子 簇 组 合 形成 的 答 。 叶 子 节点 至 多 包含 工 个 形 如 [CFG = 1.2… 站 项 。 另 外 。 叶 子 
节点 还 有 两 个 指针 “prev” 和 “nexr"， 用 于 把 所 有 叶子 连 成 链 ， 达 到 高 效 扫描 的 目的 。 叶 子 节点 
表示 由 相应 项 描述 的 子 得 形 成 的 簇 。 叶 子 节点 的 项 应 该 满足 国 值 T， 了 表示 叶子 节点 中 子 聚 类 的 
最 大 直径 (或 半径 )。 

由 于 叶子 节点 中 的 项 是 子 簇 而 不 是 单个 数据 点 ， 因 此 ，CF 树 是 对 聚 类 数据 的 简洁 表示 ， 显 
然 参 数 B 和 了 决定 CF 树 的 规模 。 

当 搬入 新 数据 对 象 是 地 ，CF 树 可 以 动态 构造 。CF 树 的 重建 类 似 于 树 构建 中 的 节点 插入 和 节 

采用 CF 及 CF 树 结构 有 利于 增 量 聚 类 和 动态 聚 类 。BIRCH 采用 多 阶段 聚 类 技术 ， 对 数据 集 
合 进行 单 遍 扫描 后 生成 初步 簇 , 再 经 过 一 遍 或 多 遍 扫描 改进 聚 类 。 算法 的 复杂 度 为 O(m), 其 缺点 
在 于 CF 树 对 节点 中 包含 项 的 数目 有 限制 ， 这 可 能 导致 节点 并 未 对 应 实际 数据 集 的 一 个 自然 篮 。 

BIRCH 算法 主要 分 四 个 阶段 : 第 一 阶段 对 整个 数据 集 进 行 扫描 ， 根 据 给 定 的 初始 距离 阔 值 
建立 一 棵 初始 聚 类 特征 树 ; 第 二 阶段 通过 提升 冰 值 了 重建 CF 树 , 得 到 一 棵 压缩 的 CF 树 。 第 三 、 
第 四 阶段 利用 全 局 聚 类 算法 对 已 有 的 CF 树 进 行 聚 类 得 到 更 好 的 聚 类 结果 。 

BIRCH 算法 利用 聚 类 特征 树 概括 了 聚 类 的 有 用 信息 ， 并 且 由 于 聚 类 特征 树 占用 空间 比 原始 
数据 集合 小 得 多 ， 可 以 存 入 内 存 中 ， 因 此 在 给 定 有 限 内 存 的 情况 下 ，BIRCH 能 利用 可 用 的 资源 
产生 较 好 的 聚 类 结果 。 算法 的 复杂 度 为 O(N), 具有 与 对 象 数 目 呈 线性 关系 的 可 扩展 性 和 较 好 的 
聚 类 质量 。 但 是 由 于 大 小 限制 ，CF 树 的 每 个 节点 只 能 包含 有 限 数目 的 项 目 ， 一 个 CF 树 节点 并 
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不 总 是 对 应 于 用 户 所 考虑 的 一 个 自然 簇 。 此 外 , 由 于 采用 直径 或 半径 了 来 控制 聚 类 边界 ，BIRCH 
算法 不 适合 发 现 非 球形 的 簇 。 


22.7.2 ”利用 代表 点 聚 类 


CURE ( 利用 代表 点 聚 类 ) 算法 是 介 于 基于 质心 方法 和 基于 代表 对 象 点 方法 之 间 的 策略 。 在 
CURE 算法 中 ,不 是 利用 质心 或 单个 代表 对 象 点 来 代表 一 个 簇 , 而 是 首先 在 簇 中 选取 周 定 数目 的 、 
离散 分 布 的 点 ,用 这 些 点 反映 簇 的 形状 和 范围 。 然 后 把 离散 的 点 按 收 缩 因子 向 簇 的 质心 收缩 。 收 
缩 后 的 离散 点 作为 入 的 代表 点 。 两 个 簇 的 距离 定义 为 代表 点 对 (分别 来 自 两 个 徐 ) 距 离 的 最 小 值 ， 
在 CURE 算法 的 每 一 步 合并 距离 最 近 的 两 个 簇 。 

CURE 算法 克服 了 利用 单个 代表 点 或 基于 质心 方法 的 缺点 , 可 以 发 现 非 球 形 及 大 小 差异 较 大 
的 徐 。 簇 的 收缩 (离散 点 的 收缩 ) 降低 了 算法 对 孤立 点 的 敏感 性 。 

调节 收缩 因子 a (aE[0,1] )， 可 以 让 CURE 发 现 不 同形 式 的 簇 。 当 a=1 时 ，CURE 还 原 为 
基于 质心 的 方法 。 当 a=0 时 ，CURE 还 原 为 MST ( 最 小 生成 树 ) 方法 。 

在 大 数据 集 的 聚 类 问题 上 ，CURE 采取 随机 采样 的 方法 。 虽然 随 机 采样 是 在 精确 与 效率 间 的 
折 中 ,实验 证 明 , 对 于 多 数 数据 集 ， 中 等 规模 的 采样 就 能 较 好 地 保证 聚 类 质量 。 为 加 速 聚 类 收敛 
速度 ，CURE 算法 首先 对 样本 数据 进行 划分 并 在 每 个 划分 块 内 局 部 聚 类 ， 去 除 孤 立 点 后 ， 再 对 每 
个 划分 块 中 局 部 的 簇 进 行 聚 类 生成 最 后 的 簇 。 

对 于 容量 为 n 的 样本 , CURE 算法 的 最 差 时 间 复 杂 度 为 O(n"logn)。 当 数据 点 维 数 较 低 时 ( 如 
2 维 )， 时间 复 杂 度 可 减少 为 O(n”)， 该 算法 仅 对 数据 库 扫 描 一 遍 ， 其 空间 复杂 度 为 O(n)。 


22.8 ”基于 密度 的 方法 


基于 密度 聚 类 的 关键 思想 是 : 对 于 簇 中 每 个 对 象 , 在 给 定 半径 s 的 邻 域 中 至 少 要 包含 最 小 数 
目的 对 象 (MinP1s)， 即 邻 域 的 基数 必须 超过 一 个 闪 值 。 基 于 密度 的 方法 主要 有 两 类 ， 即 基于 连通 
性 的 算法 和 基于 密度 函数 的 算法 。 基 于 连通 性 的 算法 包括 DBSCAN、GDBSCAN、OPTICS、 
DBCLASD 等 ;基于 密度 函数 的 算法 有 DBNCLUE 等 算法 。 

大 型 空间 数据 库 中 可 能 含有 球形 、 线 形 、 延 展 形 等 多 种 形状 的 复 , 因此 ,要求 聚 类 算法 应 具 
有 了 能够 发 现任 意 形状 篮 的 能 力 。 当 然 还 要 求 聚 类 算法 在 大 型 数据 库 上 具有 高 效 性 。DBSCAN 算 
法 就 是 满足 上 述 要 求 的 一 种 基于 密度 的 聚 类 算法 , 它 将 足够 高 密度 的 区 域 划分 为 复 , 能 够 在 含有 

“噪声 ”的 空间 数据 库 中 发 现任 意 形状 的 簇 。 点 邻 域 的 形状 取决 于 两 点 间 的 距离 函数 dist(p,q)。 
例如 采用 二 维 空间 的 曼 哈 坦 距 离 时 ， 邻 域 的 形状 为 形状 。 在 实际 应 用 中 应 该 采用 能 反映 问题 特性 
的 距离 函数 。 

于 密度 的 复 和 “噪声 ”的 概念 是 基于 下 列 各 定义 。 
定义 I: 点 p 的 s- 邻 域 可 记 为 NA(p)， 其 定义 为 
Ns(p)={g EeD|dist(p,g) < a} 

定义 工 : 如 果 p、g 满足 下 列 条 件 : (1) p 三 N,(p) , (2) |N,(q) MinPts ， 则 称 点 p 是 从 
点 4 关于 s 和 MinpPts 直接 密度 可 达 的 。 

显然 , 直接 密度 可 达 关 系 在 核心 点 对 间 是 对 称 的 。 在 核心 点 和 边界 点 间 直 接 密度 可 达 关 系 不 
是 对 称 的 ， 如 图 22.3 所 示 。 
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图 22.3 核心 点 、 边 界 点 、 直 接 密 度 可 达 
定义 王 : 如 果 存 在 一 个 点 的 序列 pip… ,pn，p1=q;pr=ppirl 是 从 pi 直接 密度 可 达 的 ， 则 称 点 
P 了 是 从 点 g 关 于 s 和 MinPts 密度 可 达 的 。 
密度 可 达 是 直接 密度 可 达 的 扩展 ， 密 度 可 达 关 系 满足 传递 性 ， 但 不 满足 对 称 性 。 
定义 IV: 如 果 存 在 一 个 点 o, p 和 4 都 是 从 点 o。 关 于 s 和 MinPts 密度 可 达 的 , 则 称 点 p 是 从 
点 4 关于 es 和 MinPts 密度 相连 的 。 
密度 相连 是 一 个 对 称 关 系 ， 密 度 可 达 的 点 之 间 的 密度 相连 关系 还 满足 自 反 性 。 
在 上 述 4 个 定义 的 基础 上 ， 就 可 以 定义 基于 密度 的 簇 和 “噪声 ”的 概念 。 
簇 的 定义 : 令 D 表示 数据 点 的 集合 ， 若 DD 的 非 空子 集 C 满足 下 列 条 件 。 
(1) 对 任意 p 和 gq, 若 peC 且 g 是 从 p 关 于 s 和 MinPts 密度 可 达 的 , 则 有 gecCc。( 最 大 性 ) 
(2) vp,qeC :jp 与 g 是 关于 s 和 MinPts 密度 相连 的 。( 连通 性 ) 
则 称 C 是 基于 密度 簇 。 它 是 基于 密度 可 达 的 最 大 的 密度 相连 的 点 的 集合 
噪声 的 定义 : 令 C1,C2,…, Cx 是 数据 库 中 分 别 关 于 参数 ;和 Miibta 构 世 的 注 ， 则 “噪声 ”被 
定义 为 数据 库 中 不 属于 任何 簇 的 数据 点 的 集合 ， 即 集合 {pe D|V; :q # G;} 就 为 “噪声 ”。 
给 定 参 数 = 和 MinPts， 可 以 分 两 步 发 现 篮 。 第 一 步 , 从 数据 库 中 任意 选取 一 个 满足 核心 点 的 
点 作为 种 子 ; 第 二 步 ， 检 索 从 种 子 点 密度 可 达 的 所 有 点 ， 获 得 包括 种 子 点 在 内 的 簇 。 
DBSCAN 算法 可 以 发 现 空间 数据 中 的 复 和 “噪声 "。 但 必须 为 每 个 篮 指定 恰当 的 参数 。 和 
MinPts, 及 至 少 每 个 簇 中 的 一 个 点 。 但 要 事先 获得 数据 库 中 所 有 簇 的 相关 信息 并 不 是 一 件 容易 的 事 。 
为 发 现 篮 , DBSCAN 算法 从 任意 点 p 开始 , 检索 所 有 从 点 p 关于 s 和 MinPts 密度 可 达 的 点 。 
如 果 p 是 核心 点 ， 就 生成 一 个 关于 s 和 MinPts 的 徐 ; 如 果 p 是 边界 点 ， 且 没有 从 pp 密度 可 达 的 
点 ，DBSCAN 算法 就 访问 数据 库 中 下 一 个 点 。 由 于 s 和 MinPts 是 全 局 参数 值 ， 如 果 两 个 不 同 密 
度 的 簇 彼此 接近 ，DBSCAN 可 能 会 合并 这 两 个 徐 。 当 没有 新 的 点 添加 到 任何 簇 时 ， 过 程 结束 。 
虽然 DBSCAN 算法 可 以 对 数据 对 象 进行 聚 类 ， 但 需要 由 用 户 确定 输入 参数 。 和 MinPts， 而 
且 算 法 对 参数 值 非常 敏感 , 参数 值 的 微小 变化 往往 会 导致 差异 很 大 的 聚 类 结果 , 所 以 在 精确 地 确 
定 这 两 个 参数 ， 但 在 现实 的 高 维 数据 集合 中 ， 很 难 做 到 这 一 点 。 
OPTICS 算法 为 自动 和 交互 的 聚 类 分 析 提 供 了 一 个 可 扩展 的 篮 次 序 。 复 次序 刻 画 了 表达 数据 
集 的 基于 密度 的 聚 类 结构 , 它 包含 的 信息 等 价 于 一 个 参数 设 定 范围 宽广 的 基于 密度 的 聚 类 。 纂 次 
序 可 作为 自动 和 交互 聚 类 的 基础 。 
DENCLUE 算法 是 基于 密度 函数 的 聚 类 方法 , 它 的 基本 思想 是 把 每 一 个 数据 点 对 聚 类 的 影响 
利用 数学 函数 形式 化 地 建 模 , 这 些 数学 函数 称 为 影响 函数 。 影 响 函 数 可 以 看 作 描 述 数据 点 在 其 邻 






































475 


@ 实战 大 数据 一 一 MATLAB 数据 挖掘 详解 与 实践 


476 


域内 的 影响 程度 ， 抛 物 线 函数 、 方 波 函 数 、 高 斯 函数 等 都 可 以 作为 影响 函数 。 数 据 空间 的 整体 密 
度 可 以 通过 所 有 点 影响 函数 的 加 和 计算 得 出 , 然后 通过 确定 密度 吸引 点 的 方法 精确 地 确定 纂 。 密 
度 吸引 点 是 全 局 密度 函数 的 局 部 最 大 值 。 如 果 全 局 密度 函数 是 连续 的 且 在 任意 点 可 导 , 就 可 以 用 
全 局 密度 函数 的 梯度 指导 候 山 算法 有 效 地 确定 密度 吸引 点 。 


22.9 ”基于 网 格 的 方法 


基于 网 格 的 方法 首先 将 空间 量化 为 有 限 数 目的 单元 , 然后 在 这 个 量化 空间 上 进行 所 有 的 聚 类 
操作 。 这 类 方法 的 处 理 时 间 不 受 数据 对 象 数目 的 影响 , 仅 依赖 于 量化 空间 中 每 一 维 上 的 单元 数目 ， 
因此 处 理 速度 较 快 。 

STING 算法 即 是 一 种 基于 网 络 的 方法 ， 它 利用 层次 结构 将 空间 区 域 划分 为 矩形 单元 ， 在 每 
个 单元 中 存储 对 象 的 统计 参数 ( 如 均值 、 方 差 、 最 小 值 、 最 大 值 、 分 布 的 类 型 等 )， 用 以 描述 有 
关 数 据 特 征 。STING 通过 对 数据 集 进 行 一 次 扫描 ， 计 算 单 元 中 的 统计 参数 。 因 此 ， 若 ”表示 对 
象 的 个 数 ， 则 生成 簇 的 时 间 复 杂 度 为 O(n)。 

在 生成 层次 结构 后 ,一 个 查询 的 响应 时 间 是 OO9。 其 中 大 是 最 低 分 辨 率 下 网 络 单元 的 数目 , 通 
党 大 远 小 于 me STING 采用 多 分 辩 率 的 方式 进行 聚 类 ， 聚 类 质量 取决 于 网 络 结构 中 底层 的 粒度 。 

WaveCluster 算法 利用 小 波 变换 聚 类 ， 该 算法 既是 基于 网 络 的 ， 也 是 基于 密度 的 ， 其 主要 思 
想 是 ,首先 量 化 特征 空间 , 形成 一 个 多 维 网 络 结构 ， 然 后 通过 小 波 变换 来 变换 原始 特征 空间 ,最 
后 在 变换 后 的 特征 空间 中 发 现 密集 区 域 。 它 可 以 有 不 同 分 辨 率 下 产生 基于 用 户 需 求 的 簇 。 

WaveCluster 算法 中 的 每 个 网 络 单元 汇总 一 组 映射 到 该 单元 的 对 象 的 信息 。 这 种 汇总 信息 可 
以 用 于 基于 内 存 的 多 分 辨 率 小 波 变换 ， 以 及 随后 的 聚 类 分 析 。 

WaveCluster 算法 的 第 一 步 是 量化 特征 空间 。 把 4 维特 征 空间 的 第 守 维 分 割 成 个 六 区 间 。 如 
果 假 定 各 个 维 上 的 区 间 数 等 于 m， 那 么 ， 在 特征 空间 中 将 有 zz 个 单元 ， 然 后 ， 根 据 特 征 值 将 对 
象 分 配 到 这 些 单元 中 。 令 Fi=(fi,p,…, 甩 为 对 象 Qt 在 原始 特征 空间 中 的 特征 向 量 。MF(vuvz ,va) 
表示 原始 特征 空间 中 的 一 个 单元 , 其 中 W1 入 vi 科 m，1 科 未 四 是 该 单元 在 特征 空间 的 总 轴 上 的 位 
置 , 令 ;为 五 轴 上 每 个 单元 的 大 小 ,如 果 具 有 特征 向 量 Fy=(fi,fp,…, 有 的 对 象 Ok 满足 对 Vi ,1<i<d 
有 : (vi 一 D)s; 夺 f 三 vis; ， 则 将 该 对 象 分 配 到 单元 M=(visv2,… ,va)。 

单元 的 数目 是 影响 聚 类 质量 的 一 个 重要 因素 , 由 于 小 波 变 换 具有 多 分 辨 率 特 性 , 所 以 要 在 不 
同 的 变换 尺度 上 考虑 不 同 的 单元 大 小 。 

WaveCluster 算法 的 第 二 步 是 对 特征 空间 进行 小 波 变换 。 离 散 小 波 变换 应 用 于 量化 的 特征 空 
间 。 在 单元 M 上 应 用 小 波 变换 产生 新 的 特征 空间 和 新 的 单元 Ti, 给 定单 元 到 的 集合 。 WaveCluster 
在 变换 后 的 特征 空间 发 现 相连 的 部 分 ， 每 一 个 相连 的 部 分 是 单元 Ti 的 集合 ， 将 它们 看 成 是 簇 。 
对 应 小 波 变换 的 分 辨 率 +， 存 在 簇 的 集合 C,， 通 常 较 粗 的 分 辨 率 对 应 的 簇 的 数目 较 少 。 

任意 一 个 复 c，ce C, , c 含有 的 簇 数 目 为 o。 在 WaveCluster 算法 的 第 4 步 标 记 特 征 空间 中 
的 单元 。WaveCluster ed 空间 中 含有 簇 的 单元 ， 即 

Vevh,T ec =0cEC, 
式 中 : 有 是 单元 的 标记 。 簇 是 在 变换 后 的 特征 空间 中 发 现 的 ,而 且 是 基于 小 波 系数 的 ， 因此， 
不 能 直接 用 于 定义 原始 特征 空间 中 的 复 。WaveCluster 生成 一 个 查询 表 LIT， 将 变换 后 的 特征 空间 
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域内 的 影响 程度 ， 抛 物 线 函数 、 方 波 函 数 、 高 斯 函数 等 都 可 以 作为 影响 函数 。 数 据 空间 的 整体 密 
度 可 以 通过 所 有 点 影响 函数 的 加 和 计算 得 出 , 然后 通过 确定 密度 吸引 点 的 方法 精确 地 确定 纂 。 密 
度 吸引 点 是 全 局 密度 函数 的 局 部 最 大 值 。 如 果 全 局 密度 函数 是 连续 的 且 在 任意 点 可 导 , 就 可 以 用 
全 局 密度 函数 的 梯度 指导 候 山 算法 有 效 地 确定 密度 吸引 点 。 


22.9 ”基于 网 格 的 方法 


基于 网 格 的 方法 首先 将 空间 量化 为 有 限 数 目的 单元 , 然后 在 这 个 量化 空间 上 进行 所 有 的 聚 类 
操作 。 这 类 方法 的 处 理 时 间 不 受 数据 对 象 数目 的 影响 , 仅 依赖 于 量化 空间 中 每 一 维 上 的 单元 数目 ， 
因此 处 理 速度 较 快 。 

STING 算法 即 是 一 种 基于 网 络 的 方法 ， 它 利用 层次 结构 将 空间 区 域 划分 为 矩形 单元 ， 在 每 
个 单元 中 存储 对 象 的 统计 参数 ( 如 均值 、 方 差 、 最 小 值 、 最 大 值 、 分 布 的 类 型 等 )， 用 以 描述 有 
关 数 据 特 征 。STING 通过 对 数据 集 进 行 一 次 扫描 ， 计 算 单 元 中 的 统计 参数 。 因 此 ， 若 ”表示 对 
象 的 个 数 ， 则 生成 簇 的 时 间 复 杂 度 为 O(n)。 

在 生成 层次 结构 后 ,一 个 查询 的 响应 时 间 是 OO9。 其 中 大 是 最 低 分 辨 率 下 网 络 单元 的 数目 , 通 
党 大 远 小 于 me STING 采用 多 分 辩 率 的 方式 进行 聚 类 ， 聚 类 质量 取决 于 网 络 结构 中 底层 的 粒度 。 

WaveCluster 算法 利用 小 波 变换 聚 类 ， 该 算法 既是 基于 网 络 的 ， 也 是 基于 密度 的 ， 其 主要 思 
想 是 ,首先 量 化 特征 空间 , 形成 一 个 多 维 网 络 结构 ， 然 后 通过 小 波 变换 来 变换 原始 特征 空间 ,最 
后 在 变换 后 的 特征 空间 中 发 现 密集 区 域 。 它 可 以 有 不 同 分 辨 率 下 产生 基于 用 户 需 求 的 簇 。 

WaveCluster 算法 中 的 每 个 网 络 单元 汇总 一 组 映射 到 该 单元 的 对 象 的 信息 。 这 种 汇总 信息 可 
以 用 于 基于 内 存 的 多 分 辨 率 小 波 变换 ， 以 及 随后 的 聚 类 分 析 。 

WaveCluster 算法 的 第 一 步 是 量化 特征 空间 。 把 4 维特 征 空间 的 第 守 维 分 割 成 个 六 区 间 。 如 
果 假 定 各 个 维 上 的 区 间 数 等 于 m， 那 么 ， 在 特征 空间 中 将 有 zz 个 单元 ， 然 后 ， 根 据 特 征 值 将 对 
象 分 配 到 这 些 单元 中 。 令 Fi=(fi,p,…, 甩 为 对 象 Qt 在 原始 特征 空间 中 的 特征 向 量 。MF(vuvz ,va) 
表示 原始 特征 空间 中 的 一 个 单元 , 其 中 W1 入 vi 科 m，1 科 未 四 是 该 单元 在 特征 空间 的 总 轴 上 的 位 
置 , 令 ;为 五 轴 上 每 个 单元 的 大 小 ,如 果 具 有 特征 向 量 Fy=(fi,fp,…, 有 的 对 象 Ok 满足 对 Vi ,1<i<d 
有 : (vi 一 D)s; 夺 f 三 vis; ， 则 将 该 对 象 分 配 到 单元 M=(visv2,… ,va)。 

单元 的 数目 是 影响 聚 类 质量 的 一 个 重要 因素 , 由 于 小 波 变 换 具有 多 分 辨 率 特 性 , 所 以 要 在 不 
同 的 变换 尺度 上 考虑 不 同 的 单元 大 小 。 

WaveCluster 算法 的 第 二 步 是 对 特征 空间 进行 小 波 变换 。 离 散 小 波 变换 应 用 于 量化 的 特征 空 
间 。 在 单元 M 上 应 用 小 波 变换 产生 新 的 特征 空间 和 新 的 单元 Ti, 给 定单 元 到 的 集合 。 WaveCluster 
在 变换 后 的 特征 空间 发 现 相连 的 部 分 ， 每 一 个 相连 的 部 分 是 单元 Ti 的 集合 ， 将 它们 看 成 是 簇 。 
对 应 小 波 变换 的 分 辨 率 +， 存 在 簇 的 集合 C,， 通 常 较 粗 的 分 辨 率 对 应 的 簇 的 数目 较 少 。 

任意 一 个 复 c，ce C, , c 含有 的 簇 数 目 为 o。 在 WaveCluster 算法 的 第 4 步 标 记 特 征 空间 中 
的 单元 。WaveCluster ed 空间 中 含有 簇 的 单元 ， 即 

Vevh,T ec =0cEC, 
式 中 : 有 是 单元 的 标记 。 簇 是 在 变换 后 的 特征 空间 中 发 现 的 ,而 且 是 基于 小 波 系数 的 ， 因此， 
不 能 直接 用 于 定义 原始 特征 空间 中 的 复 。WaveCluster 生成 一 个 查询 表 LIT， 将 变换 后 的 特征 空间 
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中 的 单元 映射 到 原始 特征 空间 中 的 单元 。 查询 表 中 的 每 个 元 素 表 示 在 变换 后 的 特征 空间 中 一 个 单 
元 与 原始 特征 空间 中 的 相应 单元 的 关系 。 因此, 能 够 很 容易 地 确定 原始 特征 空间 中 的 每 个 单元 的 
标记 。 最 后 ，WaveCluster 将 特征 空间 中 每 个 单元 的 标记 ， 分 配给 所 有 特征 向 量 在 该 单元 中 的 对 
象 ， 从 而 确定 了 簇 。 形 如 
VevMj, Vo EM,j,l, =0u,CEC, ,ISi<N 

其 中 是 对 象 o; 的 簇 标记 。 

WaveCluster 算法 能 够 较 好 地 处 理 孤 立 点 ， 对 输入 数据 的 顺序 不 敏感 ， 对 大 型 数据 库 有 效 ， 
它 能 够 较 好 地 发 现 带 有 不 同比 例 的 复杂 结构 ( 如 卜 形 的 或 窜 形 的 ) 的 徐 ， 且 不 需要 为 簇 假定 任何 
特征 的 形状 ， 不 要 求 复 的 数目 等 先 验 知识 。 


22.10 ”基于 模型 的 聚 类 方法 


基于 模型 的 聚 类 方法 建立 在 数据 符合 潜在 的 概率 分 布 这 一 假设 基础 之 上 。 该 类 方法 试图 优化 
给 定数 据 与 某 些 数学 模型 之 问 的 拟 合 ， 主 要 有 统计 学 方法 和 神经 网 络 方法 等 。 

COBWEB 是 一 种 简单 增 量 概念 聚 类 算法 ， 它 以 一 个 分 类 树 的 形式 创建 层次 聚 类 。 分 类 树 与 
判定 树 不 同 ， 分 类 树 中 每 一 个 节点 对 应 一 个 概念 ， 包 含 该 概念 的 一 个 概率 描述 ,概括 该 节点 的 对 
象 信息 。 判 定 树 标记 分 支 而 不 是 节点 ， 并 且 采 用 逻辑 描述 符 ， 而 不 是 概率 描述 符 。COBWEB 采 
用 启发 式 估算 量度 一 分 类 效用 来 指导 分 类 树 的 构建 , 如 果 要 将 对 象 加 入 对 象 树 , 就 要 加 入 到 能 产 
生 最 高 分 类 效用 的 位 置 , 即 根据 产生 最 高 分 类 效用 的 划分 ,把 对 象 置 于 一 个 存在 的 类 中 , 或 者 为 
它 创 建 一 个 新 类 。COBWEB 可 以 自动 修正 划分 中 类 的 数目 ， 不 需要 用 户 提供 相应 参数 。 但 它 的 
局 限 性 在 于 假设 每 个 属性 上 的 概率 分 布 相互 独立 ， 而 实际 上 属性 常常 是 相关 的 。 另 外 , 聚 类 的 概 
率 分 布 表示 使 得 更 新 和 存储 聚 类 代价 较 高 。 算 法 的 计算 复杂 度 不 仅 依赖 于 属性 数目 ， 而 且 依赖 于 
属性 值 的 数目 。 分 类 树 在 偏 斜 的 数据 上 难以 达到 高 度 平 衡 , 这 可 能 导致 时 间 和 空间 复杂 度 的 剧烈 
变化 。 

CLASSIT 对 COBWEB 进行 扩展 , 用 来 处 理 连续 性 数据 的 增 量 聚 类 。 该 算法 在 每 个 节点 中 存 
储 属性 的 连续 正 态 分 布 ,采用 修正 的 分 类 效用 度量 ， 该 度量 是 连续 属性 上 的 积分 ， 而 不 是 在 离散 
属性 上 求 和 。 但 CLASSIT 存在 与 COBWEB 类 似 的 问题 ， 也 不 适用 于 对 大 型 数据 库 中 的 数据 进 
行 聚 类 。 

AutoClass 是 在 产业 界 较为 流行 的 聚 类 方法 ， 它 采用 贝 叶 斯 统计 分 析 来 估算 结果 往 的 数目 。 
该 系统 通过 搜索 模型 空间 所 有 的 分 类 可 能 性 ,自动 确定 分 类 类 别 的 个 数 和 模型 描述 的 复杂 性 。 它 
允许 在 一 定 的 类 别 内 属性 之 间 具 有 一 定 的 相关 性 ,各 个 类 之 间 具 有 一 定 的 继承 性 , 即 在 类 层次 结 
构 中 ， 某 些 类 共享 一 定 的 模型 参数 。 

神经 网 络 方法 将 每 个 簇 描述 为 一 个 样本 。 样本 作为 聚 类 的 原型 , 不 一 定 对 应 特定 的 数据 实例 
和 对 象 。 神 经 网 络 案 类 方法 包括 Rumelhart 等 人 提出 的 竞争 学 习 神经 网 络 和 Kohonen 提出 的 自 组 
织 特征 映射 (SOM) 神 经 网 络 。 神 经 网 络 聚 类 方法 处 理 时 间 较 长 ， 并 用 有 较 高 的 数据 复杂 性 。 需 要 
研究 提高 网 络 学 习 速 度 的 学 习 算法 , 并 增强 网 络 的 可 理解 性 ,以 便 使 人 工 神 经 网 络 适用 于 大 型 数 
据 库 。 
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22.11 基于 目标 函数 的 方法 


前 面 各 节 提 到 的 算法 一 般 都 为 适用 于 动态 数据 库 的 聚 类 技术 。 实际 中 受到 人 们 普遍 欢迎 的 是 
基于 目标 函数 的 聚 类 方法 ,该 方法 将 聚 类 归结 成 一 个 带 约束 的 非 线性 规划 问题 , 通过 优化 技术 获 
得 数据 集 的 划分 和 聚 类 。 这 类 方法 设计 简单 、 解 决 问题 的 范围 广 , 还 可 以 转化 为 优化 问题 而 借助 
经 典 数学 的 非 线性 规划 理论 求解 , 并 易于 在 计算 机 上 实现 。 因 此 随 着 计算 机 的 应 用 和 发 展 , 基于 
目标 函数 的 聚 类 算法 成 为 新 的 研究 热点 。 

设 有 两 个 样本 总 、 状 的 特征 向 量 分 别 为 





hn 3 
六 EE 
| i 3 oe 了 
至 =| - = (Xi 2 Nin ) 也 = : 三 (jxj2， ,Xjn) 
Xin Xn 


这 两 个 样本 可 以 在 同一 类 中 , 也 可 能 在 不 同 的 类 中 , 因此 可 以 计算 同一 个 类 内 样本 与 样本 之 
间 的 距离 ， 也 可 以 计算 属于 不 同类 的 样本 与 样本 之 间 的 距离 。 

计算 样本 与 样本 间 的 距离 有 几 种 方法 , 分 别 是 欧 氏 距离 法 、 夹 角 余弦 距离 法 、 二 值 夹 角 余 弦 
法 和 具有 二 值 特征 的 Tanimoto 测度 等 。 


欧 氏 距离 : D3 -=| 一 Xj P=(X; -XX)) (Xi -XX))= Ee 一 xi) 





D3? =(X—X)) SK —X)) 
马 氏 距离 : 1 忆 一 一 7 全 -要 
Ky =- = 天 = be 
流 注 
夹 角 余 弦 距离 : S(X;,XX))=cos9= 一 一 一 人 一 
2 EAT] 





特征 是 二 值 时 的 夹 角 余弦 : S(X;,XX))=cos9= 一 一 一 一 
GE Xi)(XjX)) 
pp 
具有 二 值 特征 的 Tanimoto 测度 : S(E,)) = 一 一 一 一 一 
WA 


22.11.1 样本 与 类 之 间 的 距离 
中 是 代表 某 样本 的 集合 ，o 中 及 个 样本 , 已 是 某 一 个 待 测 样本 。 
样本 与 类 之 间 的 距离 的 计算 方法 有 两 种 。 
(1 ) 计算 该 样本 到 w 类 内 各 个 样本 之 间 的 距离 , 将 这 些 距离 求 和 , 然后 取 平均 值 作为 样本 
与 类 之 间 的 距离 


eg 1 N 1 Nn 
DED=TED EX -EE 
i 二 1 k=1 


(2 ) 计算 w 类 的 中 心 点 M ”， 以 w 中 的 所 有 样本 特征 的 平均 值 作为 类 中 心 ， 然 后 计算 待 
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测 样本 瑟 到 o 的 中 心 点 M ”的 距离 。 





D(X m= MO Tm 
k=1 


22.11.2 ”类 内 距离 


类 内 距离 是 指 同一 个 类 内 任意 样本 之 间 的 距离 之 和 的 平均 值 。 从 类 集 内 一 固定 点 天 到 所 有 
其 他 的 N-1 个 点 有 % 之 间 的 距离 平方 和 为 





一 1 Nn 
已 (下 ,人 = 一 一 六 2 x) 
一 1 总 弓 
仿 


同样 道理 ， 取 w 内 所 有 个 点 的 平均 距离 以 表示 其 类 内 距离 
DOT ED = ST 
I” NVDSSSE < 


Jzi 





22.11.3 ”类 与 类 之 间 的 距离 
设 有 两 个 类 w;、wj， 计 算 类 与 类 之 间 的 距离 有 以 下 几 种 方式 。 
(1 ) 最 短 距离 法 : 规定 两 个 类 间 相 距 最 近 的 两 个 点 之 间 的 距离 为 两 类 的 距离 
Dj =min(dy) 
dy =|X; = [Sa Ew,X) Eo) 
(2 ) 最 长 距离 法 : 规定 两 个 类 间 相 距 最 远 的 两 个 点 之 间 的 距离 为 两 类 的 距离 


Dj = max(dy) 
dy | Xi—X) 小 大 EX EO) 





(3 ) 重心 法 : 求 各 类 中 所 有 样本 的 平均 值 作为 类 的 重心 ， 用 两 类 的 重心 间 的 距离 作为 两 个 
的 距离 





D,; XY -xX 


Xl 间 六 交 a 3 
i Ke J Keo 


(4 ) 平均 距离 法 : 计算 两 类 之 间 所 有 样本 的 距离 , 求 和 ， 取 距离 的 平均 值 作为 两 类 间 的 距离 


1 
Dij== 2 XxX, ll 
NiN; 大 ca 

Xjem 


根据 以 上 各 距离 的 计算 方法 ， 就 可 以 构造 聚 类 时 的 目标 函数 ,一 般 要 求 类 间距 离 要 大 ， 而 每 
类 样本 间 的 距离 要 小 。 
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聚 类 时 的 目标 函数 设 定 后 ， 就 可 以 利用 各 种 优化 方法 对 其 进行 求解 ， 从 而 可 得 到 聚 类 结果 。 
具体 的 优化 方法 可 参见 第 3 篇 “目标 优化 技术 ”相关 内 容 。 


22.12 高 群 点 检测 


离 群 点 ( Outlier ) 是 指数 据 集合 中 不 符合 数据 一 般 特 性 或 一 般 模 型 的 数据 对 象 , 又 称 孤立 点 。 
离 群 点 可 能 是 由 于 度量 或 执行 错误 产生 的 ， 也 有 可 能 是 由 于 固有 数据 的 变异 产生 的 。 

很 多 数据 挖掘 算法 尽量 减少 离 群 点 对 挖掘 结果 的 影响 ,或 者 在 挖掘 过 程 中 排除 离 群 点 。 但 是 ， 
有 时 离 群 点 (噪声 ) 可 能 是 非常 重要 的 ， 识 别离 群 点 的 模式 比 正常 数据 的 模式 更 有 价值 ,一 味 地 
排除 离 群 点 或 降低 孤立 点 的 影响 , 将 有 可 能 导致 丢失 隐藏 的 重要 信息 。 例如 , 在 商业 欺诈 探测 中 ， 
离 群 点 可 能 预示 着 欺诈 行为 。 在 这 种 情况 下 ， 离 群 点 的 探测 和 分 析 是 主要 的 挖掘 任务 ， 称 为 离 群 

离 群 点 检测 目前 已 成 为 数据 挖掘 的 一 个 重要 方面 , 正在 得 到 越 来 越 广泛 的 应 用 , 在 许多 应 用 
领域 ( 如 风险 控制 领域 )， 特 别 是 在 “广义 安全 问题 ”中 ， 离 群 点 检测 正 逐 步 成 为 一 种 有 用 的 工 
具 , 被 用 来 发 现 稀有 模式 , 或 数据 集中 明显 不 同 于 其 他 数据 的 对 象 。 通 过 对 离 群 点 的 分 析 可 以 迅 
速 、 准 确 地 甄别 异常 事件 ， 如 电信 、 保 险 、 银 行 、 电 子 的 欺诈 检测 ， 灾 害 气象 预报 ， 商 业 营销 中 
的 特殊 客户 分 析 ， 医 学 诊断 研究 中 发 现 新 的 疾病 ,医疗 方案 或 药品 所 产生 的 异常 反应 ， 网 络 安全 
中 的 入 侵 检 测 , 海关 报关 中 的 价格 隐瞒 ， 天 文学 中 一 些 稀有 的 、 新 类 型 天 体 的 发 现 ,运动员 的 成 
绩 分 析 、 过 程控 制 中 的 故障 检测 与 诊断 及 文字 编辑 系统 的 设计 等 。 

离 群 点 可 能 由 测量 、 输 入 错误 或 系统 运行 错误 而 造成 , 也 可 以 是 数据 内 存 特性 所 决定 的 , 或 
因 客 体 的 异常 行为 所 导致 的 。 由 于 离 群 点 产生 的 机 制 是 不 确定 的 , 离 群 点 检测 算法 检测 出 的 “ 离 
群 点 ”是 否 真正 对 应 实际 的 异常 行为 , 不 是 由 离 群 点 检测 算法 而 只 能 由 领域 专家 来 解释 。 算 法 只 
能 从 数据 体现 的 规律 角度 为 用 户 提供 可 疑 的 数据 , 以 便 引 起 用 户 特别 的 注意 并 最 后 确定 是 否 为 真 
正 的 异常 。 对 于 离 群 点 的 处 理 方式 也 取决 于 应 用 ， 并 由 领域 专家 决策 。 

对 于 给 定 的 了 个 数据 对 象 集合 上 的 离 群 点 挖掘 , 是 指 发 现 与 其 余数 据 相 比 有 显著 差异 、 异 常 
或 不 一 致 的 个 对 象 。 首 先 要 在 给 定 的 数据 集合 中 定义 数据 的 不 一 致 性 ,然后 找到 有 效 的 方法 来 

离 群 点 的 定义 是 非 平凡 的 ， 如 果 采 用 一 个 回归 模型 ,偏差 分 析 可 以 给 出 对 数据 “极端 性 ”的 
估计 。 但是, 在 时 间 序列 数据 中 寻找 离 群 点 十 分 困难 ， 它 们 可 能 隐藏 在 带 趋势 的 、 季 节 性 的 或 者 
其 他 周期 性 变化 中 。 当 分 析 多 维 数据 时 , 具有 极端 性 的 可 能 是 维 值 的 组 合 , 而 不 是 某 个 特别 维 值 ， 
对 于 非 数 值 型 的 数据 ( 如 分 类 数据 )， 离 群 点 的 定义 建立 在 特殊 的 考虑 基础 之 上 。 

由 于 人 了 眼 只 善于 识别 至 多 三 维 的 数值 型 数据 , 所 以 利用 现 有 的 数据 可 视 化 方法 来 分 析 很 多 分 
类 属性 的 数据 或 高 维 数据 中 的 离 群 点 是 低 效 率 的 。 现在 一 般 采 用 计算 机 技术 。 基于 计算 机 的 离 群 
点 探测 方法 可 分 为 统计 学 方法 、 基 于 距离 的 方法 、 基 于 偏 移 的 方法 等 。 

统计 学 方法 假定 数据 服从 一 定 的 概率 分 布 或 概率 模型 , 然后 根据 模型 采用 不 一 致 性 检验 来 识 
别离 群 点 。 不 一 致 性 检验 需要 数据 集 参数 ( 假定 的 数据 分 布 ) 分布 参数 ( 如 均值 和 方差 ) 及 期 
望 得 到 的 离 群 点 数目 。 基 于 统计 学 方法 的 离 群 点 检测 的 主要 缺点 在 于 大 多 数 检验 是 针对 单个 属性 
的 , 而 许多 数据 挖掘 问题 要 在 高 维 数据 空间 中 发 现 离 群 点 。 另 外 , 统计 学 方法 需要 数据 集合 参数 ， 
例如 数据 分 布 , 但 同样 在 现实 中 数据 分 布 也 可 能 是 未 知 的 。 因 此 在 没有 特定 检验 时 ， 统 计 学 方法 
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不 能 确定 能 发 现 所 有 的 离 群 点 。 

为 消除 统计 学 方法 带 来 的 缺陷 ， 引 入 基于 距离 的 离 群 点 检测 的 概念 。 若 数据 集 5 中 至 少 有 p 
个 部 分 与 对 象 。 的 距离 大 于 4， 则 对 象 。 是 一 个 在 参数 p 和 4d 下 的 基于 距离 的 离 群 点 ， 即 在 基于 
距离 的 离 群 点 检测 中 ， 将 离 群 点 看 作 是 那些 没有 足够 数量 邻居 的 对 象 。 与 基于 统计 的 方法 相 比 ， 
基于 距离 的 离 群 点 检测 拓宽 了 多 个 标准 分 布 的 不 一 致 性 检验 的 思想 , 避免 了 过 多 运算 。 常用 的 基 
于 距离 的 离 群 点 检测 方法 有 基于 索引 的 算法 、 嵌 套 一 循环 算法 ， 基 于 单元 的 算法 等 。 

基于 偏离 的 离 群 点 检测 将 离 群 点 定义 为 与 给 定 的 描述 偏离 的 对 象 。 该 类 方法 不 采用 统计 检验 
或 基于 距离 的 度量 来 确定 异常 对 象 ,而 是 通过 检查 一 组 对 象 的 主要 特征 来 确定 离 群 点 , 序列 异常 
技术 和 OLAP 数据 立方 体 技术 是 两 种 常见 的 基于 偏离 的 离 群 点 探测 技术 。 

离 群 点 检测 中 需要 注意 以 下 几 个 问题 : 

(1 ) 全 局 观点 和 局 部 观点 。 

离 群 点 与 众 不 同 , 但 具有 相对 性 。 一 个 对 象 可 能 相对 于 所 有 对 象 是 离 群 的 , 但 它 相 对 于 它 的 

局 部 近邻 不 是 离 群 的 。 
(2 ) 点 的 离 群 程度 。 

某 些 技术 方法 以 二 值 方法 来 报告 对 象 是 否 为 离 群 点 , 但 这 不 能 反映 某 些 对 象 比 其 他 对 象 更 加 
偏离 整体 的 基本 事实 。 这 时 可 以 通过 定义 对 象 的 偏离 程度 来 给 对 象 打分 即 离 群 因子 或 离 群 值得 
分 ， 即 在 都 为 离 群 点 的 情况 下 ， 也 还 有 分 高 和 分 低 的 区 别 。 

(3 ) 离 群 点 的 数量 及 检测 的 时 效 性 。 

数据 集中 离 群 点 的 数量 通常 是 未 知 的 , 正常 点 的 数量 远 远 超过 离 群 点 的 数量 , 离 群 点 的 数量 
在 大 规模 数据 集中 所 占 的 比例 较 低 ， 一 般 小 于 5% 甚 至 1%。 

离 群 点 在 整个 数据 集中 的 比例 很 低 ， 从 数据 是 否 偏离 整体 的 角度 看 , 这 是 一 类 极端 不 平衡 的 
问题 , 离 群 点 的 检测 可 以 看 成 一 类 极端 不 平衡 的 数据 分 类 问题 , 但 由 于 分 布 的 极端 不 平衡 , 因此 
通常 的 分 类 方法 、 不 平衡 分 类 方法 难以 适用 。 

以 下 为 常用 的 离 群 点 检测 方法 。 


22.12.1 ”基于 统计 的 离 群 点 检测 方法 


基于 统计 的 方法 是 研究 最 早 也 是 研究 最 多 的 方法 。 这 类 方法 大 部 分 是 从 针对 不 同 分 布 的 离 群 
点 检验 方法 发 展 起 来 的 , 通常 使 用 分 布 来 拟 合 数据 集 , 假定 所 给 定 的 数据 集 存在 一 个 分 布 或 概率 
模型 ( 如 正 态 分 布 或 泊 松 分 布 )， 然 后 将 与 模型 不 一 致 ( 即 分 布 不 符合 ) 的 数据 标识 为 离 群 数据 
(一 般 是 概率 分 布 模型 具有 低 概率 的 值 )。 

概率 分 布 模型 通过 估计 用 户 指定 的 分 布 参数 , 由 数据 创建 。 如 假定 数据 具有 正 态 分 布 , 则 其 
分 布 的 均值 和 标准 差 可 以 通过 计算 数据 的 均值 和 标准 差 来 估计 ( 即 从 训练 集中 估计 )， 然 后 可 以 
估计 每 个 对 象 在 该 分 布下 的 概率 。 

概率 分 布 最 常用 的 是 正 态 分 布 。 设 属性 x 取 自 标准 正 态 分 布 Y ( 0.1 )， 如 果 属 性 值 x 满足 : 
P(x| 宇 c)=a 其 中 是 给 定 的 常量 ， 则 * 以 概率 1-a 为 离 群 点 。 式 中 a 表示 错误 地 将 来 自给 定 分 布 
的 值 分 类 为 离 群 点 的 概率 ， 常 用 的 是 0.05。 

如 果 ( 正常 对 象 的 盖 个 感 兴趣 的 属性 的 分 布 是 具有 均值 y 和 标准 差 o 的 正 态 分 布 , 即 Nk,o”) 
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实战 大 数据 一 一 MATLAB 数据 挖掘 详解 与 实践 


分 布 ， 

态 分 布 
过 样本 
观测 值 
面 , 由 
的 情况 
一 种 思 
是 质量 

















Wt30 对 应 上 下 控制 线 ,yt26 对 应 上 、 下 警告 线 ， 
根据 3c 原则 ，99.73% 的 观测 值 将 落 在 y+30 区 


则 可 以 通过 变换 二 Ce-we 转换 为 标准 正 元 
M0,1)。 通 常 x 和 是 未 知 的 ， 可 以 通 
均值 和 样本 标准 差 来 估计 。 实 践 中 ， 当 
很 多 时 ， 这 种 估计 的 效果 很 好 ; 另 一 方 
概率 统计 中 的 大 数 定律 可 知 ， 在 大 样本 
下 可 以 用 正 态 分 布 近似 其 他 分 布 。 这 样 
想 在 质量 控制 图 中 有 广泛 应 用 ,图 22.4 
控制 示意 图 , 中 心 线 是 观测 值 的 预测 值 ， 























间 内 ， 仅 有 0.27% 的 观测 值 落 在 此 区 间 之 外 。 x 
对 于 观测 样本 x: 
。 ”如 果 此 点 在 上 、 下 警告 线 之 间 区 域内 ， 图 22.4 质量 控制 示 总 图 
则 测定 过 程 处 于 控制 状态 ， 生 产 过 程 或 样本 分 析 结果 有 效 。 
。 如果 此 点 超出 上 、 下 警告 线 ， 但 仍 在 上 、 下 控制 线 之 间 的 区 域内 ， 提 示 质 量 开始 变 劣 ， 
可 能 存在 “失控 ”倾向 ， 应 进行 初步 检查 ， 并 采取 相应 的 措施 。 
。 如果 此 点 落 在 上 、 下 控制 线 之 外 ， 表 示 生 产 或 测定 过 程 “ 失 控 "， 生 产 的 是 废品 或 观测 
样本 无 效 。 应 立即 检查 原因 ， 予 以 纠正 。 
基于 统计 分 布 的 离 群 点 检测 方法 具有 坚实 的 理论 基础 ， 当 数据 和 所 用 的 检验 类 型 知识 充分 
时 ， 这 种 检验 方法 可 能 非常 有 效 ， 但 也 存在 以 下 几 点 不 足 。 


尽管 许多 类 型 的 数据 可 以 用 少量 常见 的 分 布 ( 如 高 斯 分 布 、 泊 松 分 布 或 二 项 式 分 布 ) 来 描 
述 ， 但 在 许多 应 用 中 ， 数 据 的 分 布 是 未 知 的 或 数据 几乎 不 可 能 用 单一 标准 的 分 布 来 拟 合 。 
这 类 方法 要 求 已 知 数据 集 的 分 布 类 型 及 参数 的 知识 。 然 而 , 在 许多 情况 下 , 数据 分 布 是 
未 知 的 。 当 观察 到 的 分 布 不 能 恰当 地 用 任何 标准 的 分 布 建 模 时 , 统计 学 方法 不 能 确保 所 
有 的 离 群 点 被 发 现 。 另 外 ， 要 确定 哪 种 分 布 能 最 好 地 拟 合 数据 集 的 代价 也 非常 大 。 

这 类 方法 绝 大 多 数 是 针对 低 维 数据 的 〈 特别 是 针对 单个 属性 的 )， 不 能 用 于 检测 高 维 数 
据 中 的 离 群 点 。 

这 类 方法 不 适合 混合 类 型 数据 。 





22.12.2 ”基于 距离 的 离 群 点 检测 方法 








这 种 方 
] 大 最 
对 




















是 它 的 


于 距离 的 离 群 点 检测 方法 思想 直观 、 简 单 ,一 个 对 象 如 果 远 离 大 部 分 点 , 则 认为 是 离 群 点 。 
法 比 统计 学 方法 更 容易 使 用 , 基于 距离 的 离 群 点 检测 方法 有 多 种 变形 , 其 中 一 种 方法 是 利 
近邻 距离 的 大 小 来 判定 离 群 点 的 方法 。 
于 正 整数 k， 对 象 p 的 最 近邻 距离 k_distance(p) 定 义 如 下 。 

除 p 外 ， 至 少 有 上 个 对 象 o 满足 distancep.o) 乏 上 distance(p); 

除 p 外 ， 至 多 有 上 -1 个 对 象 o 满足 distance(p,0) <k_distance(p)。 
个 对 象 的 最 近邻 的 距离 越 大 , 越 可 能 远离 大 部 分 数据 , 因此 可 以 将 对 象 的 最 近邻 距离 看 成 
离 群 程度 ( 或 离 群 点 得 分 )， 称 为 离 群 因子 OF ( Outlier Factor )。 




















点 x 的 离 群 因子 定义 为 
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5 distance(x.y) 


OF1(x,k) =22 ED 
[N(x,R)| 


式 中 : Ne 朋 是 不 包含 x 的 天 最 近邻 的 集合 N(x, 有 ={y | distance(x, y) 三 kk-distance(x, y)} ，|N(x, 肪 
是 该 集合 的 大 小 ， 其 值 可 能 大 于 k。 

应 用 此 法 时 ,需要 选择 合适 的 离 群 因子 国 值 来 区 分 正常 值 和 离 群 值 。 阔 值 可 以 通过 图 示 法 确 
定 ， 即 将 OF(xe 旭 降序 排列 ， 选 择 OF(Cc 刀 急速 下 降 的 点 作为 离 群 值 、 正 常 值 的 分 隔 点 ， 如 图 22.5 
所 示 。 在 该 图 中 ， 有 两 个 点 可 判定 为 离 群 点 。 














图 22.5 离 群 闽 值 选择 策略 示意 图 
基于 距离 的 离 群 点 检测 方法 简单 , 但 该 算法 存在 以 下 不 足 : 四 对 大 值 较为 敏感 ， 如 果 磊 大 小 
(如 等 于 1)， 则 少量 的 邻近 离 群 点 可 能 导致 较 低 的 离 群 程度 ; 如 果 庆 太 大 ， 则 当 点 数 少 于 时 ， 
有 较 多 的 点 被 划分 为 离 群 点 。 现在 还 没有 一 种 有 效 的 方法 来 确定 合适 的 值 ; @ 算 法 的 时 间 复 杂 度 
为 O(n”)， 难 以 用 于 大 规模 数据 集 ; 加 该 算法 需要 有 关 离 群 因子 阔 值 或 数据 集中 离 群 点 个 数 的 先 
验 知识 , 因此 , 在 实际 应 用 中 有 时 由 于 先 验 知识 的 不 足 会 造成 一 定 的 困难 ; 四 它 要 使 用 全 局 阔 值 ， 
不 能 处 理 不 同 密度 区 的 数据 集 。 


22.12.3 ”基于 相对 密度 的 离 群 点 检测 方法 


于 统计 的 方法 与 基于 距离 的 方法 都 是 从 全 局 角度 来 考虑 的 全 局 一 致 的 方法 , 不 能 处 理 不 同 
密度 区 域 的 数据 集 , 然而 ,实际 应 用 中 数据 通常 并 非 是 单一 分 布 的 。 当 数据 集 含有 多 种 分 布 或 数 
据 集 由 不 同 密 度 子 集 混合 而 成 时 , 这 些 全 局 方法 效果 不 佳 。 一 个 对 象 是 否 为 离 群 点 不 仅仅 取决 于 
它 与 周围 数据 的 距离 大 小 , 而 且 与 邻 域内 的 密度 状况 有 关 。 一 个 对 象 的 邻 域 密 度 可 以 用 包含 固定 
节点 个 数 的 邻 域 半 径 或 指定 半径 邻 域 中 包含 的 节点 数 来 描述 ， 包 含 固定 节点 数 的 邻 域 半 径 越 大 ， 
其 密度 就 越 小 ; 固定 半径 的 邻 域 包含 的 节点 数 越 多 ,密度 就 越 大 , 因而 产生 了 两 类 不 同 的 基于 密 
度 的 离 群 点 检测 方法 。 在 此 只 介绍 基于 相对 密度 的 离 群 点 检测 方法 。 
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5 distance(x.y) 


OF1(x,k) =22 ED 
[N(x,R)| 


式 中 : Ne 朋 是 不 包含 x 的 天 最 近邻 的 集合 N(x, 有 ={y | distance(x, y) 三 kk-distance(x, y)} ，|N(x, 肪 
是 该 集合 的 大 小 ， 其 值 可 能 大 于 k。 

应 用 此 法 时 ,需要 选择 合适 的 离 群 因子 国 值 来 区 分 正常 值 和 离 群 值 。 阔 值 可 以 通过 图 示 法 确 
定 ， 即 将 OF(xe 旭 降序 排列 ， 选 择 OF(Cc 刀 急速 下 降 的 点 作为 离 群 值 、 正 常 值 的 分 隔 点 ， 如 图 22.5 
所 示 。 在 该 图 中 ， 有 两 个 点 可 判定 为 离 群 点 。 














图 22.5 离 群 闽 值 选择 策略 示意 图 
基于 距离 的 离 群 点 检测 方法 简单 , 但 该 算法 存在 以 下 不 足 : 四 对 大 值 较为 敏感 ， 如 果 磊 大 小 
(如 等 于 1)， 则 少量 的 邻近 离 群 点 可 能 导致 较 低 的 离 群 程度 ; 如 果 庆 太 大 ， 则 当 点 数 少 于 时 ， 
有 较 多 的 点 被 划分 为 离 群 点 。 现在 还 没有 一 种 有 效 的 方法 来 确定 合适 的 值 ; @ 算 法 的 时 间 复 杂 度 
为 O(n”)， 难 以 用 于 大 规模 数据 集 ; 加 该 算法 需要 有 关 离 群 因子 阔 值 或 数据 集中 离 群 点 个 数 的 先 
验 知识 , 因此 , 在 实际 应 用 中 有 时 由 于 先 验 知识 的 不 足 会 造成 一 定 的 困难 ; 四 它 要 使 用 全 局 阔 值 ， 
不 能 处 理 不 同 密度 区 的 数据 集 。 


22.12.3 ”基于 相对 密度 的 离 群 点 检测 方法 


于 统计 的 方法 与 基于 距离 的 方法 都 是 从 全 局 角度 来 考虑 的 全 局 一 致 的 方法 , 不 能 处 理 不 同 
密度 区 域 的 数据 集 , 然而 ,实际 应 用 中 数据 通常 并 非 是 单一 分 布 的 。 当 数据 集 含有 多 种 分 布 或 数 
据 集 由 不 同 密 度 子 集 混合 而 成 时 , 这 些 全 局 方法 效果 不 佳 。 一 个 对 象 是 否 为 离 群 点 不 仅仅 取决 于 
它 与 周围 数据 的 距离 大 小 , 而 且 与 邻 域内 的 密度 状况 有 关 。 一 个 对 象 的 邻 域 密 度 可 以 用 包含 固定 
节点 个 数 的 邻 域 半 径 或 指定 半径 邻 域 中 包含 的 节点 数 来 描述 ， 包 含 固定 节点 数 的 邻 域 半 径 越 大 ， 
其 密度 就 越 小 ; 固定 半径 的 邻 域 包含 的 节点 数 越 多 ,密度 就 越 大 , 因而 产生 了 两 类 不 同 的 基于 密 
度 的 离 群 点 检测 方法 。 在 此 只 介绍 基于 相对 密度 的 离 群 点 检测 方法 。 
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四 实战 大 数据 一 一 MATLAB 数据 挖掘 详解 与 实践 


相对 密度 的 定义 如 下 


densityO.DINCc 月 
relative density(x,k)= DENG 
density(x,k£) 
式 中 : Ne 有 是 不 包含 x 的 大 最 近邻 的 集合 ;JNGc 是 该 集合 的 大 小 , 其 值 可 能 大 于 和 density(e 
为 对 象 的 局 部 令 域 密度 ， 其 定义 为 








py distance(x, y) 而 


JENCcb 


density(x,k) = ey 








distance(x,y) 为 最 近邻 距离 。 

一 个 对 象 的 大 最 近邻 的 距离 越 大 , 或 邻 域 密度 越 小 , 它 越 可 能 远离 大 部 分 数据 。 一 个 数据 集 
由 多 个 自然 簇 构成 ， 在 簇 内 靠近 核心 点 的 对 象 相对 密度 接近 于 1。 而 处 于 签 的 边缘 或 是 篮 的 外 面 
的 对 象 的 相对 密度 相对 较 大 ， 这 个 相对 密度 表示 x 是 否 在 比 它 的 近邻 更 稠密 或 更 稀疏 的 邻 域内 ， 
以 相对 密度 作为 x 的 离 群 因子 ， 即 OF2(x, 有 =relative density(x 朋 ， 其 值 越 大 ， 越 有 可 能 是 离 群 点 。 

基于 相对 密度 的 离 群 点 检测 算法 有 以 下 3 个 步骤 。 

(1 ) 对 于 每 一 对 象 x， 确 定 x 的 大 最 近邻 集合 No 有 和 密度 density(x, 局 。 

(2 ) 对 于 每 一 对 象 x， 确 定 x 的 相对 密度 relative density(x. 月 ， 并 赋值 给 OF2(x. 朋 。 

(3 ) 对 OF2(xe 胃 降序 排列 ， 确 定 离 群 因子 大 的 若干 对 象 。 


22.12.4 ”基于 聚 类 的 离 群 点 检测 方法 

类 似 于 基于 相对 密度 的 方法 , 基于 聚 类 的 离 群 点 检测 方法 也 考虑 到 了 数据 的 局 部 特性 , 这 些 
方法 大 多 利用 了 距离 或 相似 度 的 基本 概念 ， 并 通过 对 象 或 篮 的 特定 “ 离 群 因子 ”来 度量 对 象 的 偏 
离 程度 。 











聚 类 的 基础 上 来 检测 离 群 点 ; 二 是 只 需要 扫描 数据 集 若 干 次 ， 效 率 较 高 ， 适 用 于 大 规模 数据 集 。 

基于 聚 类 的 离 群 点 检测 方法 分 为 静态 数据 的 离 群 点 检测 和 动态 数据 的 离 群 点 的 检测 。 静态 数 
据 的 离 群 点 检测 用 于 离线 数据 的 分 析 如 税务 稽查 ; 而 动态 数据 离 群 点 检测 用 于 实时 性 高 的 数据 处 
理 问 题 中 ， 如 在 线 的 入 侵 检测 。 

1 ) 静态 数据 的 离 群 点 检测 步骤 

Q@ 对 数据 进行 聚 类 ， 将 数据 划分 为 不 相交 的 簇 。 

@ 计算 对 象 或 簇 的 离 群 因子 ， 将 离 群 因子 大 的 对 象 或 簇 中 对 象 判定 为 离 群 点 。 

2 ) 动态 数据 的 离 群 点 检测 步骤 

Q@ 利用 静态 数据 的 离 群 点 检测 方法 建立 离 群 点 检测 模型 。 

@@ 利用 对 象 与 已 有 模型 间 的 相似 程度 来 检测 离 群 点 。 


1. 基于 对 象 的 离 群 因子 方法 
这 类 方法 的 基本 思路 是 首先 聚 类 所 有 对 象 ,然后 用 对 象 到 各 个 得 中 心 的 距离 来 度量 对 象 偏离 整 
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个 数据 集 的 程度 。 如 果 一 个 对 象 不 强 属于 任何 复 , 是 称 该 对 象 为 基于 聚 类 的 离 群 点 。 由 于 聚 类 算法 
产生 的 簇 的 质量 对 该 算法 产生 的 离 群 点 的 质量 有 非常 大 的 影响 ， 因 而 需要 选择 合适 的 聚 类 算法 。 
该 算法 的 检测 步骤 如 下 。 

(1 ) 对 数据 集 刀 采用 合适 的 聚 类 算法 ( 如 一 趟 聚 类 算法 ) 进行 聚 类 ， 得 到 聚 类 结果 D = 
{C1,C, CH。 

(2 ) 计算 数据 集 D 中 所 有 对 象 的 离 群 因 子 OF3(p), 对 OF3(p) 降 序 排列 , 确定 离 群 因子 大 的 
若干 对 象 为 离 群 点 。 

在 此 OF3@) 的 计算 公式 如 下 








尖锐 
orap) -Sl * d(p,C)) 
翅 1DI 


式 中 : |D| 为 数据 集 DD 的 大 小 ; |C 为 得 7 的 大 小 ; dp,G) 为 对 象 到 簇 7 中 心 的 距离 。 
OF3(p) 度 量 了 对 象 p 偏离 整个 数据 集 的 程度 ， 其 值 越 大 , 说 明 p 偏离 整体 越 远 ， 有 可 能 是 离 
在 大 样本 情况 下 ， 可 以 将 OF3() 近 似 地 看 成 正 态 分 布 ， 则 计算 出 离 群 因子 后 ， 然 后 将 满足 
OF3(p) 宇 Ave_OF+BDev_OF(1 志 p<<2) 的 对 象 p 判定 为 离 群 点 。 在 这 里 Ave_OF 为 离 群 因子 的 平均 
值 ，Dev_OF 则 为 其 的 标准 差 。 
该 算法 依赖 于 闷 值 68， 其 值 越 小 ， 离 群 点 的 检测 率 越 高 ， 但 误 报 率 也 会 越 高 ， 通 常 取 p=1 
或 1.285。 


2. 基于 簇 的 离 群 因子 检测 方法 


基于 下 面 的 考虑 : ( 1 ) 在 某 种 度量 下 ,相似 对 象 或 相同 类 型 的 对 象 会 聚集 在 一 起 , 或 者 说 正 
党 数 据 与 离 群 数 据 会 聚集 在 不 同 的 得 中 ; (2 ) 正常 数据 占 绝 大 部 分 ， 且 离 群 数据 与 正常 数据 的 表 
现 明显 不 同 , 或 者 说 离 群 数据 会 偏离 正常 数据 即 大 部 分 数据 。 由 此 可 得 到 基于 聚 类 的 离 群 点 检测 
方法 : 

(1 ) 对 数据 集 忆 采用 合适 的 聚 类 算法 ( 如 一 趟 聚 类 算法 ) 进行 聚 类 ， 得 到 聚 类 结果 忆 = 
{Ci;C2, 5 

(2 ) 计算 每 个 复 C(1<i<< 及 的 离 群 因 子 OF4(C] ， 对 OF4(C9D 降 序 排列 C;， 求 满足 : 
b 
Pcil 
yy 三 se (0< <) 的 最 小 5,， 将 徐 C1,C,-…,Cs 标 识 为 outlier 类 即将 每 个 对 象 均 看 成 离 群 点 ， 
而 将 Cp,Cs+2,-… ,Crt 标 识 为 normal 类 即 其 中 每 个 对 象 均 看 成 正常 的 。 

在 此 离 群 因子 的 定义 为 
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或 者 : OF5(C) = 一 


jjsi d(C,C)) 
参数 s 对 检测 结果 有 影响 。s 实际 上 是 离 群 数据 所 点 比例 的 近似 值 ，s 越 小 ， 检 测 率 越 低 ， 
同时 误 报 率 也 越 低 。 根 据 统计 经 验 ， 一 个 数据 集中 受 污染 的 数据 即 离 群 数据 通常 小 于 5%， 最 多 
不 超过 15%， 因 此 在 没有 先 验 知识 的 情况 下 一 般 取 = 在 0.05~ 0.1 之 间 。 实 际 使 用 时 可 根据 性 能 
要 求 和 离 群 数据 所 占 比 例 的 先 验 知识 更 准确 地 选择 。 
3. 基于 聚 类 的 动态 数据 离 群 点 检测 
在 实际 领域 中 , 很 多 场合 离 群 数据 的 判定 不 是 离线 静态 的 ， 而 是 在 线 动态 的 。 对 于 动态 数据 
的 离 群 检测 与 分 类 方法 类 似 , 其 基本 思想 是 : 在 对 训练 集聚 类 的 基础 上 , 按照 纂 的 离 群 因子 排序 
簇 ， 并 按 一 定 比 例 将 簇 标 识 为 normal 或 outlier， 以 标识 的 簇 作为 分 类 模型 ， 按 照 对 象 与 分 类 模 
型 中 最 接近 簇 的 距离 来 判断 它 是 否 为 离 群 点 。 上 有 具体 步 又 如 下 。 
(1 ) 模型 建立 。 
第 一 步 ， 聚 类 : 对 训练 集 五 采用 合适 的 聚 类 算法 ( 如 一 趟 聚 类 算法 ) 进行 聚 类 ， 得 到 聚 类 
结果 了 = {C1,C2, CH 
第 二 步 ， 给 簇 作 标记 : 计算 每 个 簇 C(1<i 及 的 离 群 因子 OF(C)， 对 OF(C9) 降 序 排列 C;， 
bp Ci 
求 满足 : rT (0<a < 的 最 小 5， 将 簇 C1,C,…,Cs 标 识 为 outlier 类 即将 每 个 对 象 均 看 
成 离 群 点 ， 而 将 Cpr1,Cs+2,… ,Ck 标识 为 normal 类 即 其 中 每 个 对 象 均 看 成 正常 的 。 
第 三 步 ， 确 定 模型 :以 每 个 簇 的 摘要 信息 ， 案 类 半径 国 值 确定 分 类 模型 。 
(2 ) 模型 评估 。 
利用 改进 的 最 近邻 分 类 评估 测试 集 到 中 的 每 个 对 象 ， 算 法 的 具体 步骤 如 下 。 
对 于 测试 集 到 中 对 象 P， 计 算 与 每 个 复 的 距离 dp,C))。 


若 : min{d(p,0), 1<i<A=d(p.C,)<d 





则 表明 p 是 已 知 类 型 的 行为 , 可 将 徐 C, 的 标识 作为 的 标识 , 否则 表明 p 是 一 种 新 的 行为 ， 
将 标识 为 可 疑 对 象 一 候选 离 群 点 。 

(3 ) 模型 更 新 。 

对 于 测试 集 中 对 象 P， 按 照 前 面 聚 类 的 方式 ， 对 新 增 对 象 进 行 增 量 式 聚 类 ， 更 新 
了 = 人 馆 ,C…,G} 并 用 建立 模型 同样 的 方法 对 所 有 簇 重新 标记 其 类 别 。 


22.12.5 ” 离 群 点 挖掘 方法 的 评估 


可 以 通过 表 所 示 的 混淆 矩阵 来 描述 离 群 点 挖掘 方法 的 检测 性 能 。 在 离 群 点 检测 问题 中 , 并 不 
关注 预测 正确 的 normal 类 对 象 ， 重 点 关注 的 是 正确 预测 的 outlier 类 对 象 。 
由 于 在 离 群 点 检测 问题 中 ， 离 群 数据 所 占 比 例 通常 在 5% 以 下 ， 常 用 的 分 类 准确 率 的 度量 指 
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标 不 适合 于 评价 离 群 点 检测 方法 、 检 测 率 、 误 报 率 是 度量 离 群 点 检测 方法 准确 性 的 两 个 常用 指标 。 
检测 率 表示 被 正确 检测 的 离 群 点 记录 数 占 整个 离 群 点 记录 数 的 比例 , 误 报 率 表示 正常 记录 被 检测 
为 离 群 点 记录 数 占 整 个 正常 记录 数 的 比例 。 期望 离 群 点 检测 方法 对 离 群 数据 有 高 的 检测 率 , 对 正 
常数 据 有 低 的 误 报 率 ， 但 两 个 指标 之 间 会 有 一 些 冲突 ， 高 的 检测 率 常常 会 导致 高 的 误 报 率 。 


22.13 聚 类 有 效 性 


当 数 据 不 能 图 形 化 描述 时 , 一般 很 难 甚至 不 可 能 确定 一 个 数据 划分 是 否 正确 , 这 时 有 一 定 的 
方法 来 判断 聚 类 的 有 效 性 。 聚 类 有 效 性 问题 是 一 个 通用 问题 , 它 涉及 一 个 聚 类 算法 的 基本 假定 ( 簇 
形状 、 签 数目 等 ) 等 是 否 满足 等 聚 类 的 数据 集 ， 所 得 到 的 聚 类 结果 是 否 能 满足 要 求 。 

一 个 聚 类 过 程 的 质量 依赖 于 多 个 因素 ,例如 初始 化 的 方法 ， 签 数目 的 选择 、 聚 类 方法 等 。 一 
个 好 的 聚 类 方法 产生 高 质量 的 徐 ， 即 徐 内 的 对 象 具有 高 相似 度 和 不 同 徐 之 间 具 有 低 的 相似 度 。 

评估 聚 类 质量 的 准则 有 两 个 : 内 部 质量 评价 准则 和 外 部 质量 评价 准则 。 

假设 数据 集 D 被 聚集 为 个 簇 D={cuC> ,CH ， 用 CD (或 cl ) 或 ni; 表示 簇 Ci 中 包含 的 
对 象 个 数 ，n(T,C) 表 示 簇 C 中 包含 类 别 万 的 对 象 个 数 ， 则 


n=n(C)= Dn(T,,0) 























N= yc) 
i=1 
用 吃 表 示 第 ;个 对 象 属于 第 7 个 纂 C 的 隶属 度 ,| 表示 某 种 距离 的 计算 。 
22.13.1 ”内 部 质量 评价 准则 


内 部 质量 评价 准则 是 利用 有 数据 集 的 固有 特征 和 量 值 来 评价 一 个 聚 类 算法 的 结果 , 数据 集 的 
结构 未 知 。 通 常 计算 得 内 部 平均 相似 度 、 徐 间 平 均 相似 度 或 整体 相似 度 来 评价 聚 类 结果 ,内 部 质 
量 评价 准则 与 聚 类 算法 有 关 , 主要 通过 簇 内 距离 和 簇 外 距离 的 某 种 形式 的 比值 来 衡量 , 常用 的 包 
括 DB 指标 、Dunn 指标 、I 指标 、CH 指标 、Xie-Beni 指标 等 。 


1. CH 指标 
其 定义 为 
0 
其 中 : teeB = Sn zj—zIF ，traceW > 2 lx 一 zj 上 ,= 是 整个 数据 集 的 均值 5 是 第 j 簇 
的 均值 。CH 指标 计算 族 间 距离 和 入 内 距离 的 比值 ， 值 越 大 ， 聚 类 结果 越 好 。 
2. /指标 
其 定义 为 


聚 类 @ 
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其 中 ， 应 =maxt ja | 一目， = 郊区 wj 1 一，p 用 来 调整 不 同 的 复 结 构 的 对 比 ， 通 党 


ja 


取 2。 使 罕 类 有 效 性 函数 T() 最 大 的 值 ， 就 是 最 优 的 簇 个 数 。 

















3. Xie-Beni 指标 
此 指标 是 数据 集 和 簇 中 心 的 函数 ， 它 是 紧密 度 和 分 离 度 的 一 个 比值 ， 其 定义 为 


kN 2 2 
2 | 2 I 
Vp(h)=- 
NN minfls-) | 
5J 


一 个 好 的 聚 类 结果 应 使 它 的 输入 样本 尽 可 能 靠近 它们 的 入 的 中 心 , 且 使 所 有 的 簇 中 心 尽 可 能 
远离 。 因 此 ,XB 的 定义 中 ， 对 象 与 自 中 心 距离 加 权 和 的 平均 值 表 示 艇 内 的 平均 紧密 度 ， 紧 密度 
越 大 ， 则 该 平均 加 权 和 越 小 ; 自 中 心 之 间 的 最 小 距离 表示 禾 的 分 离 度 ， 因 此 繁 的 紧密 度 越 大 、 分 
离 度 越 大 ， 则 该 度量 值 越 小 。 即 一 个 较 小 的 2 度量 值 对 应 着 一 个 较 好 的 聚 类 结果 。 





4. Davies-Bouldin 指标 
其 定义 为 
加 | 
VA) = 有 dy 
3 天 
大 
其 中 : 8 = 工 > 1z-z 中 度量 了 Ci 入 的 样本 之 间 的 紧密 程度 ，qi 霹 二 一 3 度量 复 Ci 的 样本 与 
xeC; 


纂 G 的 样本 之 间 的 分 散 程 度 。 DB 指标 实际 上 是 关于 同一 类 中 样本 的 紧密 程度 与 不 同 簇 之 间 样 本 
分 散 程 度 的 一 个 函数 ,从 几何 学 的 角度 , 使 禾 内 样本 间距 最 小 而 徐闻 样本 距离 最 大 的 分 类 应 该 是 
最 佳 的 分 类 结果 ， 因 此 ， 使 DB 最 小 化 的 类 别 数 就 是 最 优 类 别 数 。 


5. Dunn 指标 


从 几何 学 的 角度 看 , 指标 与 DB 指标 的 基本 原理 是 相同 的 ,它们 都 适用 于 处 理 复 内 样本 分 布 
紧密 、 而 簇 间 样本 分 布 分 散 的 数据 集合 。 设 8 和 了 是 非 空 数据 集 ，$ 的 直径 4，3 与 7 之 间 的 距 
离 5 分 别 定义 为 





4(S)= max{d(x, »)} 6(5,7)= max {d(x,y)} 
,yes xeS,yeT 


其 中 : d(x,y) 表 示 两 个 对 象 间 的 距离 。 
Dunn 的 有 效 性 指标 定义 为 
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DT EE max (AGN 
I<i<e | Jj<e Ma {ACC)} 


jei 
使 硬 最 大 的 类 别 数 此 ， 即 为 最 佳 类 别 数 。 
在 以 上 这 些 指标 中 ， 研 究 表明 ,了 指标 与 CH 指标 的 效果 相对 较 好 。 


22.13.2 ”外 部 质量 评价 准则 


外 部 质量 评价 准则 是 基于 一 个 已 经 存在 的 人 工分 类 数据 集 ( 已 知 每 个 对 象 的 类 别 ) 进行 评价 
的 ,这样 可 以 将 聚 类 输出 结果 直接 与 之 进行 比较 。 外 部 质量 评价 准则 与 聚 类 算法 无 关 , 理想 的 聚 
类 结果 是 : 具有 相同 类 别 的 数据 被 聚集 到 相同 的 往 中 ， 具 有 不 同类 别 的 数据 聚集 在 不 同 的 得 中 。 

可 以 采用 聚 类 炳 作为 外 部 质量 的 评价 准则 。 考 虑 徐 中 不 同类 别 数据 的 分 布 , 对 于 簇 Ci, 聚 类 
炉 的 定义 为 











的 
0 To no) 
整体 取 类 人 定 义 为 所 有 聚 类 人 的 加 权 平 均值 

e= . FnCye(C) 
Dn(C) 


j=4 





坚 类 炉 越 小 ， 取 类 效果 越 好 。 
评估 聚 类 结果 质量 的 另 一 外 部 质量 评价 准则 为 聚 类 精度 , 基本 出 发 点 是 使 用 簇 中 数目 最 多 的 
类 别 作为 该 入 的 类 别 标记 。 对 于 簇 C， 聚 类 精度 的 4(C) 定 义 为 
a 
HU) = eT) 
整体 肾 类 精度 定义 为 所 有 珍 类 精度 的 加 权 平 均值 


Yn, 





天 
$= — yn(Cc)hc)= 
DOD 


其 中 : N= 6 是 簇 C: 中 占 支配 地 位 的 类 别 的 对 象 数 ，1 - 乡 定 义 为 相对 聚 类 错误 率 。 
聚 类 精度 乡 大 或 聚 类 错误 率 1 - $ 小 ， 说 明 聚 类 算法 将 不 同类 别 的 记录 较 好 地 案 集 到 了 不 同 的 簇 
中 ， 其 聚 类 准确 性 高 。 


22.14 ”例题 


下 面 介绍 常见 的 聚 类 方法 ,这 些 方法 可 以 解决 绝 大 多 数 的 聚 类 问题 。 大 数据 的 了 类 方法 可 参 
见 相关 资料 。 

例 437 对 选 定 的 泰 川 牛 、 晋 南 牛 、 南 阳 牛 、 延 边 牛 、 复 州 牛 、 鲁 西 牛 和 闻 县 红牛 7 个 良种 
黄牛 品种 ， 可 以 用 15 个 性 能 指标 衡量 ( 如 表 22.4 所 示 )。 请 用 此 系统 聚 类 法 分 类 。 


i 
N 
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表 22.4 7 个 黄牛 品种 15 个 性 能 指标 












































秦 川 牛 | 晋 南 牛 | 南阳 牛 | 延边 牛 | 复 州 牛 | 和 鲁 西 牛 | 存 县 红牛 
0.8375 07931 0.7015 0.8125 0.8500 
训 0.1000 0.1379 0.0500 0.0886 0.2463 0.0833 0.0500 
Ee 0.0625 0.0690 0.2878 0.0000 0.0522 0.0938 0.1000 
x 0.0000 0.0000 0.0000 0.0000 0.0000 0.0104 0.0000 
0.5500 0.5667 0.5250 0.5942 0.7891 0.7128 0.6667 
a 0.4500 0.4333 0.4750 0.3841 0.2110 0.2447 0.3205 
xX7 0.0000 0.0000 | 00000 | 00217 | 0.0000 0.0000 0.0000 
Xs 0.0000 0.0000 0.0000 0.0000 0.0000 0.0426 0.0123 
加 0.1396 0.1380 0.0732 0.3223 0.1797 0.1023 0.0769 
Xio 0.5466 0.7241 0.7195 0.4079 0.6172 0.3750 0.3589 
Xi 0.0000 0.0000 0.0000 0.0066 0.0078 0.3525 0.2821 
X12 0.0233 0.0345 0.0122 0.0000 0.0000 0.0000 0.0000 
Xis 0.2907 0.1035 0.9153 0.1705 0.2821 
Xs 0.1938 0.1982 0.0157 0.0774 0.0513 
Xis 0.8061 0.8062 0.9843 0.9226 0.9487 
解 : 
设 定 国 值 0.4， 利 用 最 小 距离 法 可 对 7 类 分 成 : 
>>load mydata; 
>>L=pdist (x) ;L min=min (L) ;L max=max (L); s% 样 本 间距 离 范 围 , 从 而 确定 准 值 
>> y=syscluster (x,0.4,'single') 

7 SU 本 TL 2 3 4 4 % 分 成 4 类 


>>y=clusterdata (x, 'linkage', 'single', 'maxclust',4); $MATLAB 自 带 的 系统 聚 类 函数 


y=2 2 2 3 4 i 1 


两 者 分 类 结果 完全 一 致 。 
>> y=clusterdata (x, 'linkage', 'single', 'cutoff',0.4); $ 分 成 7 了 5 类 
y=5 5 3 4 2 2 


例 4.38 ” 某 地 区 内 有 12 个 气象 观测 站 ，10 年 来 各 站 测 得 的 年 降水 量 如 表 22.5 所 示 。 为 了 节 生 
开支 ， 想 要 适当 减少 气象 观测 站 ， 试 问 减少 哪些 观察 站 可 以 使 所 得 到 的 降水 量 信息 仍然 足够 大 ? 



























表 22.5 年 降水 量 单位 : mm 
1 276.2 251.5 1 158.2 324.8 
党 324.5 287.3 | 433.2 32: 311. 58. 327: 365.5 271.0 406.5 
3 158.6 349.5 | 289.9 A 502. < 32. 357: 410.2 235.7 
297.4 | p 人 254.0 25. 258. 344.2 
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续 表 

站 点 | 1981 | 1982 | 1983 | 1984 | 1985 | 1986 | 1987 | 1988 | 1989 | 1990 
5 292.8 256.6 | 278.8 | 2500 | 192.6 
6 258.4 | 453.6 | 239. 58. 24. 21.0 | 2829 | 4672 | 3607 | 2849 

名 334.1 3897 | 3552 | 376.4 | 2905 
8 303.2 413.2 | 228.5 | 179.4 | 343.7 
9 292.9 466.5 | 453.6 | 1592 | 283.4 
10 | 2432 | 307:s 1 | 3270 | 2899 | 2775 | 1993 | 3156 | 342.4 | 2812 
11 159.7 282.1 | 456.3 | 331.2 | 243.7 
12 | 3312 387.6 | 4072 | 3777 | 41141 














对 于 这 个 问题 可 以 利用 已 有 的 12 个 气象 观测 站 的 数据 进行 模糊 聚 类 分 析 , 最 后 确定 从 哪 几 类 
中 去 掉 几 个 观测 站 。 

(1 ) 建立 模糊 集合 。 

设 4 表 示 第 /个 观测 站 的 降水 量 信息 ， 则 其 隶属 度 函 数 为 


2 
二 
b 


10 


2 10 
其 中 : 4 为 每 个 观察 站 十 年 间 观 察 值 的 平均 值 :oj = 气 一 ,5 为 其 标准 差 : 5 = a) 
i=l 


(2 ) 利用 格 贴近 度 建立 模糊 相似 矩阵 : 


今 








Ma, CD =e 


-二 
求 得 模糊 相似 朱 隆 有 = 0)io2。 


(3 ) 求 R 的 传递 闭 包 。 

求 得 玉 是 传递 闭 包 ,也 就 是 所 求 的 等 价 和 矩阵。 取 和 0.998， 把 观测 站 分 为 合适 的 类 。 再 对 各 
类 的 情况 进行 分 析 ， 就 可 以 得 出 可 以 撤销 哪 几 个 站 。 

根据 以 上 的 步 又 ， 编 程 进行 计算 ， 可 得 到 观察 站 可 以 分 成 以 下 4 类 : 


| XIX5 > | KIN3, X6sX8, Xo9X10, X11 bs | xax7 $F : X12 ! 








上 述 分 类 具有 明显 的 意义 ， | xixs | 属于 该 地 区 10 年 中 平均 降水 量 偏 低 的 观测 站 ， | xsx7 | 
属于 该 地 区 10 年 中 平均 降水 量 偏 高 的 观测 站 ，| x | 是 平均 降水 量 最 大 的 观测 站 ， 而 其 余 观测 站 
属于 中 间 水 平 。 





显然 ,去掉 的 观测 站 越 少 ， 则 保留 的 信息 量 越 大 。 为 此 , 考虑 在 去 掉 的 观测 站 数目 确定 的 条 
件 下 使 得 信息 量 最 大 的 准则 。 由 于 该 地 区 的 观测 站 分 为 4 类 , 且 第 4 类 只 含有 一 个 观测 站 , 因此 ， 
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通过 计算 下 式 来 判断 从 前 3 类 中 去 掉 的 站 点 


10 _ 
minemr=》 (ds —d;) 


1 


其 中 : 4 表示 该 地 区 第 ;年 的 平均 降水 量 ; ds 表示 该 地 区 去 掉 3 个 观测 站 以 后 第 ;年 的 平均 降水 量 。 
通过 计算 可 知 可 以 去 掉 的 观察 站 为 | xyxox1o | 。 








>>1oad mydata; 
>>mu=mean (a), sigma=std (a); 
>>for i=1:12 


for j=1:12 





r(i,j)=exp(- (mu(j)-mu(i))^2/ (sigma (i)+sigma(j))^2); 


end 
end 
>> [y,b]=fuz eqvalue (r); 
>> y=fuzzr (y,0.998); 
>> y=fuz class(y); 
>>aa=nchoosek([1 23 456 
>>bb=size (aa, 1); 
>>al=mean (a, 2); 
>>for i=1:bb 
a2=redu(a,aal(i,:),'c'); 
a3=mean (a2, 2); 
err(i)=sum( (al-a3) .^2) 7 
end 
>> [a4,bl]=min (err); 
>>yy=aa (bl :) 
yy=7 9 10 
>> a4 


a4=176.6312 


:DD hl es 


等 价 集 

$ 截 集 

sg 分 类 

$ 各 种 方案 


去 掉 3 个 观察 站 的 数据 集 


sg 此 方案 的 误差 


例 4.39 对 15 个 样品 进行 某 4 项 指标 的 测定 ， 结 果 如 表 22.6 所 示 。 可 以 认为 它们 可 分 为 3 
类 ， 但 不 知道 具体 哪 一 样本 对 应 的 类 别 ， 试 对 它们 进行 自动 归 类 。 





表 22.6 原始 数据 


0.480 


单位 : mg/kg 


14.360 








45.596 


0.526 


13.850 24.040 









3.525 
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0.086 


24.400 


























续 表 
序 号 X1 X3 Xa4 
4 3.681 13.570 25.120 
5 48.287 14.500 25.900 
6 4.741 0.140 6.900 15.700 
所 4.223 0.340 3.800 7.100 
8 6.442 0.190 4.700 9.100 
9 16.234 0.390 3.400 5.400 
10 10.585 0.420 2.400 4.700 
11 48.621 0.082 2.057 3.847 
12 288.149 1.763 2.968 
13 316.604 1.453 2.432 
14 307.310 1.627 2.729 
15 82.170 1.217 2.188 


解 : 

利用 遗传 算法 进行 分 类 , 可 以 用 两 种 方法 。 一 种 是 对 分 类 中 心 操作 , 即 先 随机 生成 分 类 中 心 ， 
然后 再 计算 各 样品 与 各 类 中 心 的 距离 , 并 将 其 归 入 距离 最 小 的 类 别 中 , 然后 对 类 中 心 优化 , 最终 
得 到 各 样品 的 分 类 。 这 一 种 方法 可 用 于 所 有 现代 优化 方法 ， 如 粒子 群 算法 、 蚁 群 算法 、 鱼 群 算法 
等 ; 另 一 种 方法 是 利用 形 如 以 下 的 编码 : (123332133333221)， 其 中 编码 长 度 为 样本 数 
量 , 序号 即 为 样本 序号 ， 数 字 对 应 该 样本 的 类 别 。 上 述 编码 表明 序号 为 1、7 和 15 的 样本 为 第 1 类 ， 
第 2、6、13 、14 号 的 样本 为 第 2 类 ， 第 3、4、5、8、9、10、11、12 号 的 样本 为 第 3 类 。 然 后 对 编 
码 进行 操作 ， 最 终 得 到 较 优 的 分 类 。 这 种 方法 需要 自己 对 遗传 算法 编码 。 


>>1oad data; 














>>y=gaclustering (x, 3,50, 800); 第 1 种 方法 
ET 
>> [yvk]=ga_cluster(x,3,50, [], [],1,800) sg 第 2 种 方法 
y=[1x6 double] [1x8 double] [3] 
VELI=7 8 SE 2 4 15 
Vt2t=sL 0 
这 两 种 方法 得 到 的 结果 有 所 差异 , 这 主要 是 因 适 应 度 函 数 不 同 而 造成 的 ,另外 遗传 算法 的 随 
机 性 也 对 结果 有 一 定 的 影响 。 
例 4.40 为 了 解 耕 地 的 污染 状况 与 水 平 ， 从 3 块 由 不 同 水 质 灌溉 的 农田 里 共 取 16 个 样品 ， 
每 个 样品 均 作 土壤 中 铜 、 锅 、 氟 、 锌 、 示 和 硫化 物 等 7 个 变量 的 浓度 分 析 ， 原 始 数据 如 表 22.7 
所 示 。 试 用 蚁 群 算法 对 16 个 样品 进行 分 类 。 

















493 


四 实战 大 数据 一 一 MATLAB 数据 挖掘 详解 与 实践 
































表 22.7 原始 数据 单位 : mg/kg 
序 号 X1 xX3 Xa 
1 11.853 14.360 25.210 
2 3.681 13.570 25.120 
3 48.287 0.386 14.500 25.900 
4 4.741 0.140 6.900 15.700 
5 4.223 0.340 3.800 7.100 
6 6.442 0.190 4.700 9.100 
7 16.234 0.390 3.400 5.400 
8 10.585 0.420 2.400 4.700 
9 48.621 2.057 3.847 
10 288.149 1.763 2.968 
11 316.604 1.453 2.432 
12 307.310 1.627 2.729 
13 82.170 1.217 2.188 
14 3.777 15.400 28.200 
15 62.856 5.200 9.000 
16 3.299 3.000 
解 : 


首先 通过 MATLAB 中 的 聚 类 函数 ， 求 出 样品 间 的 聚 类 情况 。 当 用 最 小 距离 法 时 ， 样 品 间 的 
聚 类 树 如 图 22.6 所 示 。 可 见 根据 不 同 的 标准 ， 可 以 有 多 种 划分 方 ; 
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图 22.6 样品 聚 类 树 
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为 了 简单 起 见 ， 本 例 用 蚁 群 算法 聚 类 时 分 为 3 类 。 

根据 蚁 群 算法 原理 ,设计 17 层 城市 ， 其 中 除了 前 后 两 座 城市 ， 其 余 各 层 均 为 3 个 城市 ， 代 表 
类 别 数 。 每 只 蚂蚁 从 左 到 右 所 找到 的 路 径 即 代表 各 样品 所 对 应 的 类 别 ， 而 每 次 移动 的 路 径 , 则 受 层 
间 信 息 素 和 各 样品 与 类 之 间 的 信息 素 的 共同 作用 。 每 次 移动 后 对 路 径 间 的 信息 素 进行 局 部 更 新 。 

当 所 有 m 只 蚂蚁 按 上 述 过 程 完 成 一 次 循环 ， 就 对 样品 与 各 类 别 间 的 信息 素 进行 全 局 更 新 。 
首先 对 每 只 蚂蚁 经 过 的 路 径 解码 , 得 到 各 样品 所 对 应 的 类 别 , 由 此 计算 优化 函数 , 并 得 到 最 小 值 。 
根据 函数 最 小 值 对 应 的 路 径 更 新 样品 与 类 别 间 的 信息 素 。 

根据 蚁 群 算法 的 基本 原理 ， 可 以 编制 相应 的 程序 计算 ,结果 得 到 如 下 的 路 径 : 1-1-1-2 
ed ek, nk ee. ,hd 

>>1oad data; 











>>m pattern=antclusterl (data, [],[],[],[]); 
mpattorn el a UZ 


如 果 事 先 不 知道 罕 类 的 数目 , 则 可 以 根据 样本 间 的 距离 矩阵 ， 确 定 一 个 阔 值 距离 。 当 多 个 类 
之 间 的 距离 小 于 此 值 时 ,根据 概率 选择 其 中 两 个 类 的 归并 ,而 概率 大 小 与 路 径 的 信息 素 有 关 , 规 
定 当 两 类 之 间 的 距离 小 于 阔 值 时 ， 信 息 素 为 1， 否 则 为 0。 

例 4.41 在 许多 问题 中 样品 是 依次 排列 的 〈 如 以 时 间 、 地 理 位 置 或 优 劣 为 序 )， 在 它们 分 类 
时 ,不 能 打 乱 样品 的 次 序 ， 称 为 有 序 样品 的 聚 类 ,其 中 最 常用 的 方法 称 最 优 分 割 法 。 例 如 对 动 杆 
物 按 生 长 的 年 龄 段 进 行 分 类 ， 年 龄 的 顺序 是 不 能 改变 的 ， 否 则 就 没有 实际 意义 。 

为 了 了 解 儿童 的 生长 发 育 规律 ， 随 机 抽样 统计 了 男孩 从 出 生 到 11 岁 每 年 平均 增长 体重 的 重 
量 数据 如 表 22.8 所 示 ， 试 问 男孩 发 育 可 分 为 几 个 阶段 ? 

表 22.8 1 一 11 岁 男孩 每 年 平均 增长 的 体重 








设 zzz 为 有 序 样品 ， 希 望 在 不 改变 下 标的 条 件 下 将 它们 分 成 类 ， 即 


G = 


其 中 : 0<i1<iz<i1<n， 并 称 G4,G2,… ,Gi 为 样品 G 的 一 个 大 分 割 。 对 于 这 样 的 分 割 ， 共 有 Co 个。 
对 于 给 定 的 0<h<…<iki<n， 则 二 … 关 1 代表 一 种 大 分 割 ， 即 令 
(二 Do 十 六 二 二 二 DO 


为 对 应 分 割 的 总 变 差 ， 式 中 Dj 为 类 Gi 产 fen,… 汶 } (1 ) 的 距离。 
显然 ，&%, 越 小 ， 各 类 间 的 距离 也 越 小 ,分 类 也 越 合理 。 因 此 ， 只 要 能 使 
CAL D= min Su 大 -大 


< 有 < 
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便 可 以 得 到 最 优 的 分 割 。 
最 优 分 割 可 以 采用 穷 举 法 ,即将 Ce 种 分 割 方法 穷 举 出 来 ,然后 找到 最 小 总 变 差 的 分 割 , 也 


可 以 采用 动态 规划 的 方法 进行 求解 ， 即 Fisher 最 优 求解 法 ， 下 面 是 求解 过 程 。 
Q@ 对 于 给 定 的 有 序 样本 集 ， 可 计算 如 下 的 距离 表 : 


DoiDo2Do3 ... Don 
DizD13 .D1n 
D,3... Don 

Dam 


@ 求 最 优 二 分 割 的 方法 。 首 先 将 有 序 样本 作 n-1 种 的 二 分 割 法 ， 即 
人 
每 种 分 法 各 对 应 一 个 总 变 差 ， 即 
S$(2,2)=D,,+D,, 
3(3,2) = min(D,, +D,,,D,, +D,,) 


S(n,2) = min {Ds +D,,} 


同时 ， 记 录 最 优 划 分 的 位 置 pz2)，2 和 二 me 
@ 求 最 优 三 分 割 的 方法 。 用 类 似 的 方法 求 出 最 优 三 分 割 、 四 分 割 、 一 直到 大 分 割 。 
@ 分 类 个 数 () 的 确定 。 如果 能 从 实际 问题 中 事先 确定 当然 最 好 。 如 果 不 能 , 可 以 从 SC 月 
随 大 的 变化 趋势 图 中 找到 拐点 处 ， 作 为 确定 根据 。 当 曲线 拐点 很 平缓 时 ， 可 选择 的 
较 多 ， 这 时 需要 用 其 他 的 方法 来 确定 ， 如 均 方 比 和 特征 根 法 。 
编制 相应 的 程序 ， 求 出 S(n, 及 及 对 应 的 分 类 位 置 : 
得 到 如 下 5 的 结果 ,其 中 为 2~10, 1 为 3~11， 括号 中 的 数字 为 g 值 ， 表 示 分 类 的 位 置 。 
s=[0.0050(2) 
0.0200(2)0.0050(4) 
0.0875(2)0.0200(5) 0.0050(5) 
0.2320(2)0.0400(5) 0.0200(6) 0.0050(6) 
0.2800(2)0.0400(5) 0.0250(6) 0.0100(6) 0.0050(6) 
0.4171(2)0.2800(8) 0.0400(8) 0.0250(8) 0.0100(8) 0.0050(8) 
0.4688(2)0.2850(8) 0.0450(8) 0.0300(8) 0.0150(10)0.0100(8) 0.0050(8) 
0.8022(2)0.3667(8) 0.1267(8) 0.0450(10)0.0300(10)0.0150(10)0.0100(10) 0.0050(10) 


0.9090(2)0.3675(8) 0.1275(8) 0.0650(10) 0.0450(11)0.0300(11)0.0150(11)0.0100(10) 0.0050(11)] 


根据 SC. 昌 与 大 的 曲线 ， 选 和 4， 即 儿童 生长 可 分 成 4 个 阶段 。 则 根据 5(11,4)=0.1275 ( 8 )， 
可 知 最 优 损失 函数 值 为 0.1275， 最 后 的 分 割 在 第 8 个 元 素 处 ， 因此 Gs 包含 的 样本 为 18~11 
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然后 根据 求 8 最 小 值 可 得 5(5,3)= 0.020(5)， 即 Gs 包含 的 样本 为 | 5~ 7 }， 类 似 S(4.2)-0.020(2)， 
Gs 中 的 样本 为 | 2,3,4 |，G1= {1}。 


>> y=order (x, 4) 


如 





3 


即 样本 的 最 优 有 序 分 类 为 : | 9.3 4 1 1.8，1.9，1.7 11.5，1.3，1.4 12.0, 1.9, 2.3, 2.11。 

例 4.42 评定 某 一 职位 的 任职 资格 时 ， 提 出 了 15 个 指标 ， 即 x 申请 书 印象 ，xs 学 术 能 力 ， 
x 讨 人 喜欢 , x4 自信 程度 , xs 精明, xe 诚 实 , xy 推 销 能 力 ,xs 经 验 , xo 积 极 性 , xio 抱 负 , xy 外 貌 ， 
x 理解 能 力 ，x1s 潜 力 ，x14 交际 能 力 ,xis 适应 能 力 。 但 这 些 指标 是 否 合适 值得 商 榨 。 希 望 通过 相 
应 的 分 析 ， 考 查 各 指标 的 重要 性 以 减少 指标 值 。 表 22.9 是 9 名 考察 对 象 15 项 指标 得 分 情况 ， 请 
对 此 进行 分 析 。 





表 22.9 9 名 考察 对 象 15 项 指标 得 分 情况 






































指 标 现 察 对 象 1 区 下 3 4 5 6 4 8 9 
XI 6 9 7 5 6 活 9 9 9 
xX S 6 5 8 6 8 8 8 
Xs 入 9 8 5 4 7 8 4 8 
Xo 8 9 4 5 6 8 9 8 
X11 和 10 8 6 8 7 9 9 9 
X14 7 8 8 6 学 6 8 9 8 
X's 10 10 10 5 7 6 10 10 10 

解 : 


>2>2X1=[6 9 7 5 6 799 9132=12 .5 3 8 8 1 .90 9 117x3=15 06.5 8 6 8 8 0] 

>>x4=[8 10 964889 8];x5=[7 9854789 8];x6=[8 99991088 8]; 
I= 10 7 2 2 5 8 .9.517>>2x7=[9 10 .7 2 2 5 8 9 . 51x 13 5 74.8 8 9 10 10 9]3 
X91 9 4 560 9 Ols>>xXL0=19 9 .95 5 SLO LO ls 0.8 6 907 9 ON I 
X12=L7 "9H0 N88 08 8 908]7>>x13=15 .9 6 7 "8 6 9197817xL4E 7 9 8 6 7 6 8 .9.81 
R135= T0000 103 7 6 LO LO LO 

>> y=graycluster (x1, x2,x3,x4,x5,x6,x7,x8,x9,x10,x1l1,xl12,x13,x14,x15); % 辣 值 默 

认为 0.8 
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Ss .Wt 0 0 1 ,es We 分 类 结果 
>> y=graycluster (x1, x2, x3, x4, x5,X6,Xx7,x8,Xx9, X10,x1]1,x12,x13,x14, x15,0.58); 
EN 
可 以 将 同一 类 的 指标 并 于 一 个 统一 的 指标 , 就 可 以 大 大 减少 指标 的 数量 , 以 减少 模型 的 可 靠 
性 。 但 需要 考虑 的 是 选择 的 阔 值 ， 使 分 类 比较 合理 。 
例 4.43 利用 人 工 鱼 群 算法 对 表 22.10 的 Iris 数据 进行 分 类 处 理 。 
表 22.10 lris 数据 


特 征 < 要 
5.2 3.5 1.5 0.2 
| 5.2 3.4 1.4 0.2 
Iris-setosa 








virginica 73 2.9 6.3 1.8 
6.7 2 5.8 1.8 


解 : 

利用 鱼 群 算法 对 数据 进行 聚 类 的 过 程 , 是 对 每 条 鱼 所 代表 的 聚 类 中 心 进行 迭代 寻 优 , 最 终 找 
到 最 优 鱼 所 代表 的 聚 类 中 心 , 然后 再 依据 此 聚 类 中 心计 算 每 个 样品 与 各 类 聚 类 中 心 的 距离 , 最 后 
确定 类 别 。 


>>x1=[5.0 3.4 1.6 0.4;5.2 3.5 1.5 0.275-2 3.4 1.4 0.2;4.7 3.2 1.6 0.2;4.8 3.1 1.6 0.2; 








5.43.41.50.4;7.03.24.7 1.4;6.4 3.24.51.5;6.93.1 4.91.5;5.53 2.34.01.3; 
6.5 2.84.61:.5;5.7 2.84.5 1.3;6.33.34.71.6;6.53.05.82.2;71.6 3.0 6.62.1; 
4.92.5 4.5 1.727].32.9'6.31.8736.7 2.55.81.877:2 3.6 6.1 2.5;6.35 3.2 5.1 2.01]; 
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>>iterate times=50;af=[0.7 3 50 8 10];x2=3; 
>> [best class,best value]=fish4 (xl,af,iterate times,x2); 


Best elass =L2 2 2 2 2 2 SS SS 


从 结果 看 ， 有 一 个 结果 分 错 ， 但 从 这 个 样品 的 数据 可 以 看 出 它 分 在 第 二 类 较为 合适 。 
例 4.44 利用 基于 密度 的 聚 类 法 对 随机 产生 的 一 组 模拟 数据 集 进行 分 类 。 
解 : 
根据 基于 密度 的 聚 类 法 的 原理 ， 编 程 计算 ， 得 到 以 下 结果 : 
>> x=[randn (30,4)*0.4;randn (40,4)*0.5+ones (40,1)*[4 4 4 4]]; 
>> [class,type]=dbscan (x,2,[]); 


从 class 值 ， 可 看 出 分 类 结果 符合 实际 情况 。 从 type 值 可 看 出 ,样本 点 都 为 核 ， 不 存在 离 群 
点 ， 如 图 22.7 所 示 ( 样本 点 的 投影 )。( 因为 数据 是 随机 产生 的 ， 所 以 每 次 结果 都 不 一 定 相同 。) 














2.5| 
归 O 
[Le] 
1.5r 
oo 四 SS 
上 J 
1 ® o0 2 93ooe 
O oo 
入室 ee 闪 
05 6 和 ooo_o 
oo 0 65 En 9 本 
志 的 和 O 6 oo 
or O o ® a 
Lo [3 
-0.5| o 
-1 
-1 -05 0 05 1 1.5 [3 





图 22.7 样本 的 非 线性 投影 图 
例 4.45 对 例 4.39 中 的 表 22.11 的 数据 进行 离 群 点 分 析 。 
解 : 
离 群 点 的 检测 可 以 有 多 种 方法 ， 以 下 通过 三 种 方法 对 此 数据 集 进 行 分 析 : 
(1 ) 基于 距离 的 离 群 点 检测 方法 : 


>>1oad data; 














>>y=outlier (x,1); 
y=3 13 14 12 2 % 此 5 个 点 为 最 有 可 能 的 离 群 点 
(2 ) 基于 相 异 度 的 离 群 点 检测 方法 : 
>> y=outlier sim(x,[1 1 1 1]) 
y=2 3 5 12 13  s$ 此 5 个 点 为 最 有 可 能 的 离 群 点 
此 方法 相 异 度 的 定义 如 下 : 
对 于 离散 属性 ， 当 它们 完全 相等 时 ， 相 异 度 为 0， 否 则 为 1; 
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对 于 连续 属性 ， 相 异 度 由 下 式 定义 : 
PE x 


a 
其 中 : m 为 属性 数目 。 
(3 ) 基于 聚 类 方法 的 离 群 点 检测 方法 : 


>> y=outlier kmeans (x,3) gs 基于 kmeans 聚 类 方法 
y=3 s 此 点 为 最 有 可 能 的 离 群 点 
>> [class,p]=dbscan (x,3,[]);  # 基 于 密度 聚 类 方法 
p=outiier: [3 12 13 14] s 离 群 点 

verge: [6 10 15] $ 边 界 点 


从 基于 肾 类 的 离 群 点 检测 方法 结果 可 看 出 ， 此 数据 集 的 类 别 数 有 待 商 榨 ，3 点 为 真正 的 离 群 
点 。 从 图 22.8 也 可 以 看 出 。 

>>y=k dist (data, 1); % 基 于 k 一 近邻 距离 

>>y= k dist (data, 2); $ 基 于 密度 的 方法 


4 





ar O20 











图 22.8 数据 集 的 非 线性 投影 图 
这 两 种 方法 的 结果 都 表明 3 号 样品 为 异常 点 。 
例 4.46 给 定 如 表 22.11 所 示 的 二 维 数据 集 ， 判 断 点 P15 为 离 群 点 的 可 能 性 。 
表 22.11 二 维 数据 集 
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解 : 

数据 集 的 可 视 化 图 形 如 图 22.9 所 示 。 
9 
8 上 迎 Cag ds5 了 

do 
7 上 d GBS [2 6 起 © 2d | 
C d4 
er 对 缀 ‘sid | 
5 上 C1 J 
4 上 2 
al J 
2r d8 co J 
d9 

1 J 
0 1 1 1 | 1 | L 
0 1 2 3 4 5 6 7 8 


图 22.9 二 维 数据 分 布 图 
根据 基于 密度 等 方法 的 离 群 点 检测 方法 原理 ， 可 编程 计算 如 下 。 
SS ata 222 3 ND oo OG OU GD /1 7 DO AD 
RB OT OU 6 7 GAD G2 D2 A 


>> y=myoutlier (data, [0 0],2); 


其 中 y{1} 为 最 近邻 距离 、y{2} 为 对 象 的 相对 密度 ，y{3} 为 离 群 度 。 从 这 3 个 数据 看 ， 点 P15 
有 可 能 为 离 群 点 ， 但 其 他 点 如 P22 等 为 离 群 点 的 可 能 性 更 大 。 
例 4.47 对 于 表 22.12 所 示 的 二 维 数据 集 ， 比 较 点 P7 和 P11， 哪 个 更 有 可 能 成 为 离 群 点 。 
表 22.12 ”二 维 数据 集 








解 : 
根据 基于 对 象 和 簇 的 离 群 因子 检测 方法 的 原理 ， 可 编程 计算 如 下 。 


> 人 I UL 2 2 2 0 AI I SL 3 A Eves lO i 








>> [y3,y4,y5]=outlier class (data, type); 

其 中 y3 为 大 于 赋值 的 基于 对 象 的 离 群 点 ，y4 为 基于 对 象 的 离 群 因子 值 ，y5{1} 为 基于 簇 的 
离 群 因子 ，y5{2} 为 具有 较 大 离 群 值 篮 中 的 数据 点 。 

从 结果 及 图 22.10 可 看 出 ，P7 点 为 离 群 点 的 可 能 性 较 大 。 
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解 : 

数据 集 的 可 视 化 图 形 如 图 22.9 所 示 。 
9 
8 上 迎 Cag ds5 了 

do 
7 上 d GBS [2 6 起 © 2d | 
C d4 
er 对 缀 ‘sid | 
5 上 C1 J 
4 上 2 
al J 
2r d8 co J 
d9 

1 J 
0 1 1 1 | 1 | L 
0 1 2 3 4 5 6 7 8 


图 22.9 二 维 数据 分 布 图 
根据 基于 密度 等 方法 的 离 群 点 检测 方法 原理 ， 可 编程 计算 如 下 。 
SS ata 222 3 ND oo OG OU GD /1 7 DO AD 
RB OT OU 6 7 GAD G2 D2 A 


>> y=myoutlier (data, [0 0],2); 


其 中 y{1} 为 最 近邻 距离 、y{2} 为 对 象 的 相对 密度 ，y{3} 为 离 群 度 。 从 这 3 个 数据 看 ， 点 P15 
有 可 能 为 离 群 点 ， 但 其 他 点 如 P22 等 为 离 群 点 的 可 能 性 更 大 。 
例 4.47 对 于 表 22.12 所 示 的 二 维 数据 集 ， 比 较 点 P7 和 P11， 哪 个 更 有 可 能 成 为 离 群 点 。 
表 22.12 ”二 维 数据 集 








解 : 
根据 基于 对 象 和 簇 的 离 群 因子 检测 方法 的 原理 ， 可 编程 计算 如 下 。 


> 人 I UL 2 2 2 0 AI I SL 3 A Eves lO i 








>> [y3,y4,y5]=outlier class (data, type); 

其 中 y3 为 大 于 赋值 的 基于 对 象 的 离 群 点 ，y4 为 基于 对 象 的 离 群 因子 值 ，y5{1} 为 基于 簇 的 
离 群 因子 ，y5{2} 为 具有 较 大 离 群 值 篮 中 的 数据 点 。 

从 结果 及 图 22.10 可 看 出 ，P7 点 为 离 群 点 的 可 能 性 较 大 。 











501 


昌 实战 大 数据 一 一 MATLAB 数据 挖掘 详解 与 实践 











8 (eA 

亲 9o 5 

6 

让 | 
4 $ 

3 $ 

2 d 6 9 gd! 

1 二 

%0 1 2 部 4 5 6 7 





图 22.10 数据 集 及 相应 的 类 中 心 的 分 布 图 
例 4.48 在 对 数据 集 的 聚 类 分 析 中 , 有 些 聚 类 方法 对 离 群 点 以 及 初始 取 类 中 心 比较 敏感 ， 如 
常用 的 k- 均 值 聚 类 方法 。 因 此 如 能 在 这 两 方面 进行 改进 ， 就 会 提高 聚 类 结果 。 
请 对 K-means 法 进行 改进 ， 并 对 例 4.39 中 的 数据 进行 分 析 。 
解 : 
根据 以 上 两 点 ， 对 KK-means 法 进行 修改 ， 并 编程 计算 如 下 。 从 结果 及 图 22.11 可 看 出 , 分 类 
情况 较为 合理 。 
>>1oad data; 
>>y=mykmeans (x, 3); 
Y.outlier: 3 s 离 群 点 
Volasss 2 S60 9 0 TIL2 3 ES 
A ee et ee i} 











25 ol3 ol di2 

外 | 
1.5 并 多 

9 
1 d $ 
@l4 

05 dq 

or 司 
-05 Og $ 可 





图 22.11 数据 集 的 非 线性 投影 图 
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例 4.49 在 聚 类 分 析 中 , 聚 类 数 直接 影响 到 聚 类 效果 。 在 实际 中 , 可 能 没有 办 法 得 到 确切 的 
聚 类 数 , 或 指定 的 聚 类 数 不 一 定 是 最 佳 的 聚 类 数 。 为 此 , 需要 用 一 定 的 方法 来 确定 较 佳 的 聚 类 数 。 

请 对 例 4.39 中 的 数据 确定 最 佳 聚 类 数 。 

解 : 

可 以 用 试探 法 等 多 种 方法 确定 聚 类 数 。 下 面 设 定 以 下 的 指标 , 通过 计算 在 不 同 聚 类 数 情况 下 
的 聚 类 结果 ( 指标 值 )， 以 确定 较 佳 的 聚 类 数 。 

指标 由 两 部 分 组 成 ， 一 是 类 内 距离 »， 其 定义 为 类 内 某 一 样本 到 其 他 样本 间 的 距离 和 的 平 
均值 























下 过 
b(j)=— DX 
nj gl 


式 中 : x; 为 样本 集 j 类 中 的 某 一 样本 ; Xi 为 该 类 中 的 其 他 样本 。 
二 是 类 间距 离 ， 它 为 某 一 样本 到 其 他 类 样本 的 距离 和 平均 值 的 最 小 值 ， 所 以 称 为 最 小 类 间 
距离 


网 本 区， 
wj)=min(— DI XE x |) 
Tk q=1 


式 中 : 对 为 /类 的 某 一 样本 ; Xt 为 (A ) 类 中 的 样本 。 


则 此 指标 (BWP ) 为 下 式 
BSW _b0, iD)—w(j,i) 
BAW b(j,i)+w(j,i) 


求 出 数据 集 每 个 数据 的 BWP 指标 值 ， 并 将 它们 的 平均 值 作为 聚 类 性 能 指标 。 此 值 越 大 ， 聚 
类 效果 越 好 。 
根据 以 上 指标 的 定义 ， 可 编程 计算 如 下 ， 计 算 过 程 中 所 用 的 最 大 聚 类 数 ， 可 以 指定 或 为 


int(Vn) ，n 为 数据 集中 的 样本 数 。 


BWP(j,7i) = 


>>1oad data; 
>> y=clustingk (data) % 即 分 为 4 类 ,效果 可 能 更 好 
y= 4 
例 4.50 对 表 22.13 中 的 数据 ， 利 用 一 趟 聚 类 算法 对 其 进行 聚 类 。 


表 22.13 天 气 气象 情况 





sunny false 
sunny true 
Overcast false 
rainy false 
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续 表 


ET rmay wg 


























i | 机 Fe 
rainy 65 70 true 
Overcast 64 65 true 
sunny 72 95 false 
sunny 69 70 false 
rainy 75 80 false 
Overcast 72 90 true 
OVercast 81 75 false 
rainy 71 91 true 


解 : 

根据 一 趟 算法 的 原理 ， 可 编程 计算 如 下 。 

>> x={"'sunny' 85 85 '‘'false';'sunny’' 80 90 'true';'overcast' 83 86 'false'; 
"rainy' 70 96 'false';'rainy' 68 80 'false';'rainy' 65 70 'true'; 
"overcast’ 64 65 'true';"'sunny" 72 95 "false"7 "Sunny" 69 70 “false"7 
"rainy' 75 80 'false';'sunny' 75 70 'true';'overcast' 72 90 'true'; 
"overcast' 81 75 'false';'rainy' 71 91 'true'};type=[1 0 0 1]; 

>> class=ridecluster (x,type, []); 

SS classtllsl 2 9013 %class 为 分 类 结果 

>> class{2}=4 5 8 10 12 14 

>> class{3}=6 7 9 Lk 


一 趟 案 类 算法 具有 近似 时 间 复 杂 度 , 其 本 质 类 似 于 K-means 算法 , 不 能 用 于 发 现 非 凸 形状 的 
， 或 具有 各 种 不 同 大 小 的 秘 。 对 于 具有 任意 形状 的 徐 的 数据 集 , 算法 可 能 将 一 个 大 的 自然 簇 划 
分 志 几 个 小 的 入 而 难以 得 到 理想 的 聚 类 结果 
从 计算 结果 分 析 ， 此 算法 对 样本 的 顺序 、 果林 和 否 规范 化 等 比较 敏感 。 对 于 大 规 
模 数 据 集 的 聚 类 可 以 采用 类 似 BIRCH 算法 的 两 阶段 聚 类 思想 ， 结 合 一 趟 算法 的 高 效 性 及 其 他 可 
识别 任意 形状 簇 的 案 类 算法 的 优点 得 到 混合 聚 类 算法 。 py 利用 一 趟 算法 产生 初 
始 聚 类 ， 将 得 到 的 复 作 为 整体 看 成 对 象 ， 再 利用 其 他 算法 进行 聚 类 ， 可 以 得 到 很 好 的 结果 。 
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23.1 基本 定义 


时 序数 据 是 指数 据 库 中 保存 的 是 大 量 时 间 点 上 的 数据 。 例 如 卫星 收集 的 图 像 和 传感器 数据 、 
病人 的 心电图 等 。 时 序数 据 经 常 涉及 时 间 段 ， 即 一 个 开始 时 间 和 一 个 结束 时 间 。 每 个 记录 都 与 一 
个 区 间 [&a 相 关联 ， 这 里 是 开始 时 间 ，t 是 结束 时 间 。 这 个 区 间 通 常 称 为 有 效 时 间 。 另 一 个 可 
能 用 到 的 时 间 是 事务 时 间 , 它 是 指 插 入 记录 的 事务 所 关联 的 时 间 截 , 它 与 有 效 时 间 的 起 始点 可 能 
不 同 。 例 如 某 人 在 2009 年 1 月 8 日 表明 他 将 在 2009 年 3 月 9 日 有 一 个 新 住址 , 那么 新 住址 的 有 
效 时 间 的 起 始点 是 2009 年 3 月 9 日 ,但 是 事务 时 间 是 2009 年 1 月 8 日 。 
从 时 间 的 角度 考虑 ， 至 少 存在 4 种 类 型 的 时 序数 据 库 : 
@ 快照 数据 库 : 数据 库 中 存储 的 数据 是 在 当前 时 间 内 有 效 的 数据 。 
@ 事务 时 间 数据 库 : 数据 库 支 持 的 时 序数 据 只 包括 与 插入 数据 事务 相关 联 的 时 间 ， 它 可 以 
是 事务 被 提交 ( 或 被 请 求 ) 时 的 一 个 时 间 惟 ， 也 可 能 是 一 个 时 间 范 围 。 

@ 有 效 时 间 数据 库 : 数据 库 支持 的 数据 的 有 效 时 间 范 围 。 有 效 时 间 可 以 用 单 值 表示 ， 也 可 
以 用 一 个 区 间 表 示 。 如 果 用 单 值 ， 这 个 值 就 是 有 效 时 间 范 围 的 起 始点 ， 它 的 结束 点 是 具 
有 键 值 的 数据 的 下 一 个 时 间 范 围 的 起 始点 。 

@ 二 重 时 间 数 据 库 : 数据 库 既 支持 事务 时 间 又 支持 有 效 时 间 。 

时 序数 据 挖掘 包括 许多 常规 的 数据 挖掘 方法 , 但 是 , 它 自 然 也 因 时 序 方面 的 复杂 性 和 更 复杂 
的 查询 类 型 而 变 得 更 为 复杂 。 

时 序 序列 是 项 集 的 有 序 排列 。 给 定 一 个 顾客 事务 ( 交易 ) 的 数据 库 D, 每 个 事务 由 下 列 字段 
组 成 : 顾客 标记 、 事 务 时 间 及 在 事务 中 所 购买 的 商品 项 。 在 同一 时 间 不 存在 一 个 顾客 多 于 两 个 以 
上 的 事务 发 生 ， 在 事务 中 不 考虑 所 购买 项 目的 数量 ， 即 只 关心 一 个 项 目 被 购买 还 是 没有 被 购买 。 
一 个 顾客 的 所 有 事务 放 在 一 起 可 看 作 是 一 条 序列 。 

时 序 序 列 和 时 间 序 列 的 一 般 区 别 是 时 序 序列 不 必 与 时 间 有 明显 的 关系 , 它 只 要 求 序列 中 的 项 
必须 是 完全 有 序 的 。 事 实 上 , 时 序 序列 和 时 间 序 列 这 两 个 词 是 可 以 互相 替换 的 。 这 两 个 概念 的 基 
本 区 别 是 时 间 序 列 是 数值 的 有 序 排列 ,而 时 序 序列 则 是 项 或 数值 的 集合 的 有 序 排列 。 时 序 序列 的 
长 度 是 序列 中 所 有 项 集 的 基数 和 。 一 个 给 定时 序 序列 的 子 序列 是 从 原 序列 中 移 去 一 些 项 , 并 移 去 
由 此 产生 的 所 有 空 项 集 而 得 到 的 序列 。 

一 个 项 集 i 可 以 定义 为 (ib…in )， 其 中 己 是 一 个 项 ,一 个 序列 如 s 为 <s1s2…ss>， 其 中 5 是 
一 个 项 集 。 

给 定 两 条 序列 4=<alaz-… av> 和 B=<b1by-…bm>，m 三 n， 若 存在 一 组 整数 i <i<-… < 且 
a C bq Ch,…,a, cb, ， 则 称 序列 B 包含 序列 4, 或 称 4 是 B 的 子 序列 。 例 如 ， 序列 <G) 
(4 5)(8)> 人 <(7)(3 8)(9)(4 5 6)(8)> ， 其 中 符号 “二 ”代表 “被 包含 于 ”的 关系 。 因 为 
(3)c(3 8),(4 5)c(45 6),(8)c(8), 但 是 ， 序列 <(3)(5)> 并 不 被 包含 于 <(3 5) (反之 也 真 )， 前 
者 代表 项 3 及 5 是 在 购买 一 段 时 间 之 后 再 购买 男 一 个 , 而 后 者 代表 两 个 项 同时 购买 。 在 一 条 序列 
集合 中 ， 若 一 条 序列 不 包含 在 任何 其 他 序列 中 ， 则 称 其 为 最 大 序列 。 

时 序数 据 挖掘 就 是 在 所 有 满足 由 用 户 指定 的 最 小 支持 度 阔 值 的 序列 中 发 现 最 大 序列 ， 每 个 
这 种 最 大 序列 代表 一 个 序列 模式 。 称 满足 最 小 支持 度 限制 的 一 个 序列 是 一 个 频繁 序列 。 随 着 序 
列 模式 挖掘 的 应 用 越 来 越 复杂 ， 为 了 更 有 效 地 挖掘 出 用 户 感 兴趣 的 序列 模式 ， 而 不 是 仅仅 局 限 
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在 挖掘 出 所 有 满足 支持 度 的 频繁 序列 上 ， 可 以 更 需要 挖掘 出 用 户 感 兴趣 的 特定 模式 。 用 户 的 兴 
趣 往往 会 被 转化 成 一 种 约束 ， 用 来 限定 序列 模式 ， 即 只 有 满足 这 种 约束 的 序列 模式 才 是 用 户 真 
正 需要 的 模式 。 

经 过 多 年 研究 ， 目 前 已 有 多 种 挖掘 时 序数 据 的 方法 ， 归 结 起 来 ， 基 本 可 以 分 为 两 大 类 : 通过 
生成 候选 并 利用 Apriori 性 质 进 行 剪 枝 的 Apriori 类 算法 , 以 及 通过 时 序数 据 库 进行 划分 的 模式 生 
成 算法 。 


23.2 ”时 序数 据 挖掘 参数 


大 多 时 序数 据 挖掘 研究 都 集中 在 符号 模式 方面 , 这 是 因为 数值 曲线 模式 通常 是 属于 趋势 分 析 
和 时 序数 据 的 统计 预测 范畴 。 

时 序数 据 挖掘 涉及 一 些 参数 的 设置 , 这 些 对 数 设置 的 好 坏 对 时 序数 据 挖 据 结 果 影响 很 大 。 不 
同时 序数 据 挖掘 任务 需要 设置 不 同 的 参数 。 


1. 时 间 长 度 


可 以 将 数据 库 中 的 整个 时 序 或 用 户 所 选择 的 序列 作为 时 间 序 列 的 长 度 。 时 序数 据 挖掘 将 仅 限 
于 在 这 一 序列 长 度 之 内 进行 。 此 外 , 也 可 以 将 序列 长 度 看 成 是 由 若干 序列 的 成 分 , 如 ,每 年 、 每 
月 或 火山 爆发 前 每 两 周 等 ， 这 种 情况 下 ， 就 能 够 发 现 周期 性 序列 模式 。 


2. 事件 窗口 


一 系列 在 一 段 时 间 内 发 生 的 事件 在 特定 的 分 析 中 可 以 看 成 是 一 起 发 生 的 。 如果 一 个 事件 窗口 
DD 被 设置 为 同 序列 有 一样 长 , 那 就 会 发 现 对 时 间 不 敏感 的 频繁 模式 , 也 就 是 基本 模式 。 如 “2012 
年 , 一 个 购买 计算 机 的 客户 也 买 了 数码 相机 ”( 其 中 不 再 关心 先 买 哪个 后 买 哪个 ); 若 一 个 时 间 窗 
口 刀 被 设置 为 0, 那 就 会 发 现 一 个 序列 事件 是 作为 单个 事件 发 生 。 例如 “一 个 顾客 购买 了 计算 机 ， 
然后 又 购买 了 内 存 ， 最 后 会 购买 CD -ROM”。 若 一 个 事件 窗口 D 被 设置 为 上 述 两 者 之 间 的 某 个 
值 ( 即 0 与 总 长 度 之 间 )， 如 若 刀 设 为 一 个 月 ， 那 么 在 同一 个 月 发 生 的 交易 事务 ， 将 被 认为 是 在 
同一 时 间 发 生 的 ， 而 被 合 在 一 起 进行 分 析 。 


3. 时 间 间 隔 
如 果 时 间 间 隔 interval 设 为 0， 就 意味 着 没有 间隔 ， 也 就 是 发 现 严格 的 连续 时 间 序列 。 发 现 


序列 模式 oraaara， 这 里 a; 就 是 在 时 间 i 发生 的 事件 。 这 里 也 可 以 将 事件 窗口 考虑 进来 ， 如 若 事 
件 窗口 设 为 一 周 ， 那 么 也 就 是 要 发 现 连 续 各 周 频繁 ( 发 生 ) 模式 。 


23.3 ”时 序 关联 规则 


在 传统 的 关联 规则 中 ,一 个 事务 可 以 看 作 是 具有 以 下 形式 
<TTD,CID 万 :万 :> 
其 中 : TID 是 事务 的 标识 ，CID 是 客户 的 标识 ,五 .有 P,… 三 称 为 项 。 当 考虑 时 序数 据 数据 库 时 ,一 
个 事务 可 以 记 为 
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<TTD.CID.P :Jste> 
其 中 : [t,t] 表示 事务 的 有 效 时 间 范 围 。 例 如 对 于 一 个 商店 所 产生 的 事务 ,可 以 设 定 {=#e 为 事务 完 
成 的 时 间 。 对 于 互联 网 上 的 订货 事务 ， 可 以 分 别 将 和 设 定 为 订货 时 间 和 实际 的 交 货 时 间 。 随 
着 数据 库 加 入 新 的 时 间 数 据 ， 就 可 以 发 现 处 在 不 同时 间 点 或 时 间 段 上 的 不 同 关联 规则 。 


23.3.1 事务 间 关 联 规则 


基本 的 关联 规则 只 关注 一 个 事务 内 的 项 之 间 的 关联 规则 , 这 类 规则 称 为 事务 内 关联 规则 。 但 
还 有 一 些 跨 事务 的 规则 也 很 有 意义 。 例如 一 个 电子 商店 的 经 营 者 想 知 道 顾客 在 购买 了 计算 机 之 后 
是 否 会 购买 计算 机 软件 。 这 种 购买 活动 将 发 生 在 两 个 不 同时 间 的 事务 中 , 即 存在 新 规则 一 事务 间 
关联 规则 。 为 了 定义 这 些 新 规则 ， 可 以 将 窗口 的 概念 应 用 于 事务 数据 库 ， 即 在 基本 的 关联 规则 问 
题 中 存在 一 个 项 集 天 (2 三 ) 和 一 个 事务 数据 库 D= (tp-…)， 其 中 I,Jo,… ,lix, El, 
设 每 个 事务 与 一 个 值 4; 相 关联 ,这 个 值 可 以 是 时 间 、 位 置 或 其 他 描述 事务 的 信息 。 如 果 是 时 序 
数据 ， 则 这 个 值 是 时 间 。 


23.3.2 ”情节 规则 


情节 规则 是 应 用 于 事件 序列 的 扩展 的 关联 规则 。 事 件 序列 8 是 一 个 有 序 事件 列表 ， 其 中 每 
个 事件 都 发 生 在 一 个 特定 的 时 间 。 因 此 ， 它 是 特殊 的 时 间 序 列 。 情 节 ( episode ) 是 一 系列 事件 
谓词 A 和 A 中 事件 的 偏 序 对 的 集合 : | A， |。 当 事件 谓词 应 用 于 一 个 实际 事件 时 ， 它 要 么 被 
评价 为 真 ， 要 么 被 评价 为 假 。 情 节 可 以 看 作 是 一 个 有 向 图 ， 其 中 顶点 表示 事件 ， 弧 表示 偏 序 。 
如 果 情 节 B 的 有 向 图 是 情节 A 的 有 向 图 的 子 图 ， 则 情节 B 称 为 情节 A 的 子 情节 。 如 果 事 件 序 
列 S 中 的 所 有 告警 谓词 都 得 到 满足 , 并 且 这 些 事 件 符合 偏 序 规则 , 那么 事件 序列 S 包含 一 个 情 
节 。 情 节 规 则 的 形式 化 定义 如 下 : 情节 规则 具有 B= A 的 形式 , 其 中 B 和 A 是 情节 , 且 B 是 
A 的 子 情节 。 

情节 规则 可 以 用 来 预测 交换 机 节点 的 故障 。 当 用 时 序数 据 挖掘 的 角度 来 看 这 个 问题 时 ,， 它 就 
转化 成 基于 前 面 的 事件 序列 来 预测 一 个 事件 (故障 ) 的 问题 。 这 个 事件 可 以 看 作 是 通过 一 个 结 点 
的 流量 或 警报 ( 由 网 络 实体 生成 的 描述 一 个 问题 的 消息 )。 警报 可 以 看 作 是 一 个 元 组 a= <1,s,m>， 
其 中 1 是 警报 发 生 的 时 间 ，s 是 警报 的 来 源 ，m 是 警报 消息 的 本 身 。 和 警报 序列 可 以 看 作 是 一 个 时 
间 序 列 。 首 先 通过 一 些 预 处 理 技术 实现 去 除 宛 余 警 报 、 去 除 比 已 存在 的 警报 优先 级 低 的 警报 , 用 
新 信息 或 更 高 级 的 警报 替换 某 些 警报 等 操作 ， 然 后 用 相关 模式 来 匹配 在 警报 数据 中 发 现 的 序列 。 
将 这 个 模式 与 最 近 时 间 窗 口内 发 生 的 警报 进行 比较 ， 如 果 产 生 的 警报 序列 与 一 个 相关 模式 匹配 ， 
那么 与 它 相 关联 的 相关 行为 就 将 发 生 ， 即 预测 故障 点 。 
23.3.3 ”序列 关联 规则 

给 定 一 个 项 的 集合 三 (hb-…1) 和 由 客户 序列 中 的 按 客 户 分 组 的 一 组 事务 的 集合 ， 序 列 关 
联 规则 具有 S => 了 的 形式 , 其 中 S§S 和 了 是 序列 ,其 支持 度 是 包含 序列 和 的 客户 ( 客户 序列 ) 所 占 
的 百分比 。 置 信 度 是 包含 序列 S 和 了 的 客户 (客户 序列 ) 的 个 数 与 包含 序列 8 的 客户 (客户 序列 ) 
的 个 数 之 比 。 

根据 以 上 定义 ， 就 可 将 序列 关联 规则 问题 描述 为 : 已 知 最 小 支持 度 和 置信 度 ， 找 出 序列 关 
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联 规则 。 实 际 生活 中 有 很 多 应 用 会 用 到 序列 关联 规则 。 例 如 在 购物 篮 分 析 领 域 ， 随 时 间 变 化 的 
购买 行为 可 以 用 来 预测 将 来 的 购买 行为 , 进而 可 以 利用 预测 出 的 最 可 能 购买 行为 来 制作 针对 客 
户 的 广告 。 


23.3.4 日 历 关联 规则 


给 定 一 个 项 的 集合 天 ( 1h-…n), 一 组 事务 的 集合 D= (#6…h), 一 个 时 间 段 £ 和 一 个 日 历 
C= | (sen),…,(speD | 日历 关 联 规则 是 发 生 在 D[ 如 中 的 关联 规则 卫 寺 了 。 在 该 问题 中 每 个 事务 
丰 执 行 时 都 与 一 个 时 间 戳 万 相 关联 ， 另 外 ， 整 个 时 间 按照 预先 定义 的 时 间 单 位 1 进行 划分 。 时 间 
段 £ 定 义 为 区 间 [Kt,(k+1)]; 如 果 事 务 的 时 间 截 满足 太志 三 (K+1)t, 则 称 该 事务 在 时 间 段 内 发 
生 。D[ 有 是 发 生 在 时 间 段 内 的 事务 的 集合 , D[ 及 中 的 项 集 下 的 支持 度 是 D[ 如 中 包含 了 的 事务 所 
占 的 百分比 , D[ 和 中 邯 寺 了 的 置信 度 是 了 有 中 包含 XUZ 的 事务 的 个 数 与 包含 工 的 事务 的 个 数 之 
比 。 要 注意 的 是 ， 相 同 的 数据 可 以 按 不 同 粒度 的 时 间 单 位 ( 如 小 时 、 月 、 年 等 ) 来 挖掘 日 历 关联 
规则 。 


23.4 时间 序 列 挖掘 


时 间 序 列 是 在 一 段 时 间 上 的 一 组 属性 值 。 时 间 序 列 数据 可 以 是 连续 的 ， 也 可 是 离散 的 。 

针对 时 间 序 列 的 数据 挖掘 应 用 包括 : 度量 两 个 不 同时 间 序 列 的 相似 性 ; 给 定 一 个 具有 一 组 已 
知 值 的 时 间 序 列 ， 预 测 属 性 的 未 来 值 。 显 然 第 二 种 应 用 的 预测 是 一 种 分 类 ， 而 第 一 种 确定 相似 性 
可 以 认为 是 聚 类 或 分 类 。 


23.4.1 时 间 序 列 分 析 


时 间 序 列 分 析 可 以 认为 是 从 数据 中 发 现 模式 并 预测 未 来 值 的 过 程 ， 其 中 模式 识别 可 能 涉及 : 

。 ”趋势 ”趋势 可 以 看 作 是 属性 值 随时 间 进 行 的 、 系 统 的、 无 重复 的 改变 ( 线性 或 非 线性 )。 

。 ”周期 指 时 间 序列 中 的 行为 具有 周期 性 。 

。 ”季节 性 ”检测 的 模式 可 以 是 基于 年 、 月 、 日 这 样 的 时 间 点 。 

。 ”异常 点 “为 方便 模式 识别 ， 需 要 技术 来 剔除 或 减少 异常 点 的 影响 。 

为 方便 模式 识别 ,实际 的 时 间 序列 数据 可 以 要 作 某 种 形式 的 变换 ,如 对 数 变换 可 以 用 来 稳定 
变化 并 使 季节 性 作用 恒定 。 另 外 ,变换 也 可 以 用 来 解决 维 数 灾难 问题 ， 带 有 很 多 变量 的 时 间 序列 
数据 挖掘 不 仅 困 难 而 且 代价 高 昂 , 存储 高 维 数据 的 数据 结构 也 常常 不 够 高 效 ， 此 时 就 需要 进行 变 
换 以 达到 降 维 的 目的 。 


23.4.2 ”趋势 分 析 


时 序 变量 了 表示 时 间 的 函数 ， 即 Y=F()， 此 函数 可 以 图 示 为 一 个 时 序 图 ， 如 图 23.1 所 示 ， 
它 描述 了 某 地 区 每 月 的 降水 量 。 
目前 一 般 有 四 种 主要 的 变化 或 成 分 用 于 刻画 时 序数 据 : 
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降水 量 (mm) 
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时 间 (月 ) 
图 23.1 某 地 区 降水 量 

1. 长 期 或 趋势 变化 

趋势 可 以 看 作 是 属性 值 随 时 间 进 行 的 、 系 统 的 、 无 重复 的 改变 ( 线性 的 或 非 线 性 的 )， 主 要 
用 于 反映 时 间 序 列 图 在 长 时 间 间 隔 运动 的 一 般 变 化 方向 。 这 种 变化 反映 为 一 种 趋势 线 或 趋势 曲 
线 。 确 定 趋势 曲线 或 趋势 线 的 典型 方法 包括 加 权 移 动 平均 法 和 最 小 二 乘法 。 其 中 ,移动 平均 法 对 
一 个 围绕 特定 时 间 点 的 时 间 窗 口 ， 用 窗口 内 的 所 有 取 值 的 局 部 平均 值 来 代 蔡 这 一 点 的 真实 值 。 


2. 周期 运动 或 变化 


周期 主要 指 循环 型 , 即 趋势 线 或 曲线 在 长 期 时 间 内 呈 摆 动 迹象 , 它 可 以 是 也 可 以 不 是 周期 性 
的 。 即 在 等 时 间 间 隔 之 间 ， 周 期 不 需要 严格 遵循 类 似 模型 演进 。 


3. 季节 性 变化 或 变化 


反映 每 年 都 重复 出 现 的 事件 ,如 电 煤 的 库存 在 夏 、 冬 季 会 非常 紧张 。 也 就 是 说 ， 季 节 性 变动 
是 指 同一 或 近似 同一 的 模式 ， 在 相继 年 份 的 对 应 月 份 或 时 期 重复 出 现 。 


4. 非 规则 或 随机 变化 


反映 由 于 随机 或 偶然 事件 引起 的 零星 时 序 变化 ， 如 地 震 、 企 业 人 事变 化 等 。 

以 上 有 关 趋 势 、 周 期 、 季 节 性 和 非 规则 的 变动 ， 可 以 分 别 用 变量 T、C、S 和 7 和 表示。 时 序 分 
析 与 建 模 也 可 以 将 时 序 分 解 为 以 上 4 个 基本 运动 。 时序 变量 了 可 以 为 4 个 变量 的 乘积 或 求 积 。 通 
过 对 趋势 、 周 期 、 季 节 和 非 规则 成 分 的 变动 的 系统 分 析 ， 人 们 可 以 合理 预测 长 期 或 短期 信息 。 

可 以 用 很 多 直观 的 方法 检测 时 间 序列 中 存在 的 趋势 平滑 就 是 一 种 去 除 时 间 序列 中 非 系统 化 
行为 的 方法 。 平 滑 常 常 是 通过 发 现 属性 值 的 移动 平均 来 实现 的 , 即 给 定 一 个 围绕 特定 时 间 点 的 时 
间 窗 口 ， 移 动 平均 用 窗口 内 所 有 取 值 的 局 部 平均 值 来 代替 这 一 点 的 真实 值 。 这 里 ,经 常用 到 的 是 
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中 位 数 而 不 是 均值 ,平滑 也 可 以 用 来 预测 未 来 值 , 因为 平滑 后 的 数据 较 容易 满足 一 个 已 知 的 函数 ， 
如 线性 函数 、 对 数 函 数 、 指 数 函数 等 。 

识别 时 间 序 列 数据 中 的 季节 性 模式 相对 困难 。 一 种 方法 是 在 均匀 分 隔 的 时 间 段 上 检测 属性 之 
间 的 相关 性 。 相 关 项 之 间 的 时 间 差 称 为 时 滞 。 自 相关 函数 用 来 确定 不 同时 灌 间 隔 上 的 数据 的 相关 
关系 。 相 关 图 直观 地 给 出 了 不 同时 灌 值 的 自 相关 值 。 

协 方差 用 来 度量 两 个 变量 的 同步 变化 程度 , 可 以 以 它 为 依据 确定 两 个 时 间 序列 之 间或 一 个 时 间 
序列 中 的 季节 性 趋势 之 间 的 关系 。 自 相关 系数 用 来 度量 时 灌 则 隔 为 的 时 间 序 列 值 之 间 的 相关 性 。 


23.4.3 ”相似 性 搜索 


相似 性 搜索 用 于 找 出 数据 库 中 与 给 定 查询 序列 最 相近 的 数据 序列 。 给 定时 间 序 列 集合 5, 主 
要 可 以 进行 子 序列 匹配 和 全 序列 匹配 两 种 类 似 的 相似 性 , 其 中 子 序列 匹配 是 找 出 与 给 定 的 查询 序 
列 相似 的 所 有 数据 子 序列 ， 而 全 序列 匹配 是 找 出 彼此 间 相 似 的 序列 集合 , 子 序列 匹配 是 应 用 中 更 
常 遇 到 的 问题 ,在 金融 市 场 分 析 、 医 疗 诊断 分 析 和 科学 与 工程 数据 库 分 析 等 , 时序 分 析 中 的 相似 
性 搜索 具有 非常 广泛 的 应 用 。 

然而 ,由 于 时 间 序 列 数据 规模 大 、 维 度 高 、 自 身 带 有 时 间 性 和 数值 波动 大 的 特点 ,为 数据 挖 据 
带 来 困难 ， 通 常 ， 在 数据 挖掘 前 需要 进行 数据 规约 和 变换 ， 从 而 缩小 存储 空间 ， 加 快 处 理 速度 。 


1. 数据 变换 


许多 信号 分 析 处 理 技术 要 求 数据 在 频率 域 中 , 以 便 应 用 欧式 距离 等 各 种 度量 方式 , 因此 常常 
需要 进行 数据 变换 ,将 时 间 序 列 从 时 间 域 变换 到 频 域 , 常用 的 是 正 交 交换 。 另 外 还 可 以 使 用 独立 
于 数据 的 变换 ,如 离散 傅 里 叶 和 离散 小 波 变换 , 通常 这 些 变换 可 以 有 效 地 解决 高 维特 征 向 量 的 降 
维 问题 。 


2. 相似 搜索 的 索引 方法 


时 间 序列 数据 经 过 适当 变换 后 ,为 提高 访问 效率 , 可 以 用 头 几 个 傅 里 叶 系数 构建 一 个 多 维 索 
引 。 当 相似 查询 提交 给 系统 后 ， 可 以 利用 索引 检索 出 与 查询 序列 保持 一 定 最 小 距离 的 序列 。 通 过 
计算 时 间 域 序列 和 未 满足 查询 的 序列 间 的 实际 距离 ， 可 以 进行 必要 的 后 处 理 。 

为 了 在 大 型 数据 库 中 改进 相似 性 搜索 的 效率 , 通常 将 索引 建成 树 形 结构 。 在 树 的 高 层 ， 划 分 
比较 粗略 ; 在 树 的 低层 ， 划 分 较为 细致 。 

在 进行 序列 匹配 时 ， 首 先 被 每 一 序列 分 割 为 长 度 为 w 的 窗口 “片段 "， 然 后 ,将 每 个 序列 映 
射 为 特征 空间 中 的 一 个 “轨迹 ”， 接 着 ， 将 每 个 序列 的 轨迹 划分 为 “ 子 轨迹 "， 每 一 个 由 最 小 边界 
和 矩形 表示 。 利 用 多 片 组 装 算法 可 以 搜索 更 长 的 匹配 序列 。 


3. 处 理 偏 移 和 振幅 中 间隙 和 差异 的 相似 性 搜索 方法 


序列 相关 性 分 析 通 常 使 用 欧 氏 距离 作为 相似 性 度量 ,距离 越 小 ,两 个 序列 越 相 似 , 但 在 实际 
应 用 中 , 不 一 定 要 求 匹配 的 子 序列 在 时 间 轴 上 完全 一 致 , 亦 即 若 子 序列 对 具有 同样 形状 ,但 在 序 
列 内 存在 间隙 ( 其 中 一 个 序列 的 某 些 值 可 能 在 另 一 个 序列 中 缺失 ) 或 在 偏 移 或 振幅 中 差异 , 也 认 
为 它们 是 匹配 的 ， 这 为 在 包括 股票 市 场 和 心 脑 电 图 分 析 中 的 应 用 提供 了 工具 。 
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当 两 序列 之 间 存 在 足够 多 的 非 重 亚 的 、 相 似 的 、 时 间 有 序 的 子 序列 时 ， 可 以 判断 子 序列 相互 
匹配 。 据 此 , 处 理 偏 移 与 振幅 中 间隙 和 差异 的 相似 搜索 可 以 如 下 执行 : 四 原子 匹配 , 规范 化 数据 ， 
寻找 所 有 无 间隙 的 较 小 相同 窗口 对 ; @ 窗 口 匹 配 , 将 相同 窗口 终 合 ,形成 大 的 相似 子 序列 对 ,其 
中 允许 在 原子 匹配 间 有 间隙 ; @ 子 序列 排列 : 线性 排列 子 序列 匹配 ， 以 判定 是 否 存在 足够 多 的 相 
似 片 段 。 通过 这 些 处 理 , 能 够 发 现 相 互 匹配 或 与 查询 模板 匹配 的 形状 相似 , 但 是 具有 间隙 或 偏 移 
时 和 振幅 存在 差别 的 序列 。 


23.4.4 周期 分 析 


周期 分 析 是 对 周期 模式 的 挖 据 ， 即 在 时 序数 据 库 找 出 重复 出 现 的 模式 。 周 期 模式 可 以 应 用 
诸如 行星 运动 规律 分 析 、 潮 汐 、 每 日 能 耗 等 许多 重要 的 领域 。 

周期 模式 挖掘 的 问题 可 以 分 为 三 类 : 全 周期 模式 ,每 一 时 间 点 都 精确 或 近似 影响 着 时 序 
上 的 循环 行为 。@ 部 分 周期 模式 ， 它 描述 在 部 分 时 间 点 的 时 序 周 期 ， 部 分 周期 是 一 种 比 全 周期 较 
为 松散 的 形式 , 在 现实 世界 中 更 为 常用 。@ 循 环 或 周期 相关 联 规则 , 这 种 规则 是 周期 出 现 的 事件 
的 关联 规则 。 


23.5 ”时 间 序 列 分 段 线 性 表示 


作为 时 间 序列 描述 的 一 种 方法 , 分 段 线 性 化 表示 通过 对 时 间 序 列 的 简化 及 近似 表示 来 压缩 原 
始 时 间 序 列 , 换 来 更 小 的 存储 和 计算 代价 ; 保留 时 间 序 列 的 主要 形态 , 去除 细节 干扰 ， 有 利于 提 
高 挖掘 的 效果 和 准确 性 等 。 

假设 时 间 序 列 T 有 个 数据 点 ， 首 先 将 其 分 成 个 直线 段 ， 所 3/n， 当 不 是 3 的 整数 倍 时 ， 
允许 最 后 一 段 包含 4 个 或 5 个 点 。 每 个 直线 段 与 原始 数据 之 间 都 有 一 个 残 差 , 这 个 残 差 用 直线 段 
和 原始 数据 点 之 间 的 垂直 距离 表示 ,定义 为 d1,d,,…,d;， 用 规范 化 形式 表示 第 m 段 的 误差 ew， 有 

yo 


em 表征 了 直线 段 与 原始 数据 之 间 的 近似 程度 , 对 于 由 个 直线 段 近似 的 时 间 序 列 , 定义 其 误 
差 为 BFstd(e1,e2,… ,epD(std 为 标准 差 )。 然 后 合并 两 个 近邻 的 直线 段 ， 直到 用 一 个 直线 段 来 近似 时 
间 序列 ， 即 到 12,… ,mw3， 则 此 时 需要 考虑 两 个 问题 : 四 如 何 选择 需要 合并 的 邻近 直线 段 ; @ 哪 
个 近似 是 最 终 需要 的 。 

两 个 直线 段 合 并 的 原则 是 使 合并 后 的 及 最 小 ， 同 时 选择 有 最 小 的 近似 作为 最 终 的 近似 。 

分 段 线 性 化 之 后 , 可 以 对 每 一 个 直线 段 赋予 一 个 权 值 来 表明 该 直线 段 对 整个 时 间 序 列 波形 所 
起 的 作用 。 一 个 时 间 序列 若 用 天 个 直线 段 描述 ， 其 直线 段 序列 用 4 表示 ， 则 4 将 是 一 个 长 度 为 
下 的 5 元 向 量 4= {4XLAXRAYL,AYRAW}。 

4 中 第 i 个 直线 段 由 左 端 点 (4XLi4YZL) 和 右 端 点 (4XRiAYRD) 以 及 权 值 4 丐 表示 。 

基于 此 分 段 线 性 化 表示 方法 , 可 以 用 下 式 测量 时 间 序 列 的 相似 性 , 此 公式 即 为 两 个 直线 段 序 
列 之 间 的 距离 。 





Kk 
D(A4.B)= ,AW * BW *(| AYL; — BYL, | -| AYR, — BYR, )) 
i= 
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yo 
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间 序列 ， 即 到 12,… ,mw3， 则 此 时 需要 考虑 两 个 问题 : 四 如 何 选择 需要 合并 的 邻近 直线 段 ; @ 哪 
个 近似 是 最 终 需要 的 。 

两 个 直线 段 合 并 的 原则 是 使 合并 后 的 及 最 小 ， 同 时 选择 有 最 小 的 近似 作为 最 终 的 近似 。 

分 段 线 性 化 之 后 , 可 以 对 每 一 个 直线 段 赋予 一 个 权 值 来 表明 该 直线 段 对 整个 时 间 序 列 波形 所 
起 的 作用 。 一 个 时 间 序列 若 用 天 个 直线 段 描述 ， 其 直线 段 序列 用 4 表示 ， 则 4 将 是 一 个 长 度 为 
下 的 5 元 向 量 4= {4XLAXRAYL,AYRAW}。 

4 中 第 i 个 直线 段 由 左 端 点 (4XLi4YZL) 和 右 端 点 (4XRiAYRD) 以 及 权 值 4 丐 表示 。 

基于 此 分 段 线 性 化 表示 方法 , 可 以 用 下 式 测量 时 间 序 列 的 相似 性 , 此 公式 即 为 两 个 直线 段 序 
列 之 间 的 距离 。 





Kk 
D(A4.B)= ,AW * BW *(| AYL; — BYL, | -| AYR, — BYR, )) 
i= 
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23.6 ”时间 序列 的 预测 


对 于 时 间 序 列 的 预测 可 以 用 前 面 描述 过 的 技术 , 如 回归 。 但 是 在 实际 应 用 中 时 间 序 列 数据 往 
往 存在 着 误差 和 噪声 ， 使 用 简单 的 回归 并 不 能 达到 满意 的 结果 。 
研究 时 间 序 列 预 测 时 常常 假设 时 间 序 列 是 平衡 的 , 这 就 意味 着 序列 中 的 值 来 自 一 个 均值 不 变 
的 模型 。 更 复杂 的 预测 技术 可 以 假设 时 间 序 列 是 非 平 稳 的 。 
才 间 序列 通常 代表 一 些 互 相依 赖 的 值 ， 但 它们 可 以 看 作 是 由 一 连 串 称 为 冲击 的 独立 的 值 构 
成 。 这 些 冲击 随机 取 自 一 个 均值 为 0 的 正 态 分 布 。 可 以 认为 这 些 随机 值 构成 的 序列 代表 了 一 个 
噪声 过 程 。 

这 个 白 噪声 过 程 可 以 通过 一 个 线性 过 滤器 转变 成 一 个 时 间 序 列 , 其 中 线性 滤波 器 可 以 看 作 是 
对 前 面 冲击 的 生产 关系 加 权 和 。 

一 个 特殊 的 线性 滤波 器 模式 假设 时 间 序 列 中 的 值 依赖 于 它 前 面 的 元 素 的 值 。 那么 就 可 以 用 
回归 技术 。 通 过 前 面 的 元 素 值 来 预测 时 间 序 列 的 未 来 值 ， 即 

Nn = E+h th t+ ht En 

式 中 : 6 表示 在 n+l 时 间 的 随机 误差 ， 另 外， 时 间 序 列 中 的 每 个 元 素 都 可 以 看 作 是 随机 误差 与 
前 面 元 素 值 的 线性 组 合 的 结合 ; gi; 是 自 回归 参数 。 或 者 也 可 将 序列 中 的 值 看 作 是 前 面 的 元 素 值 与 
均值 的 偏差 的 加 权 和 。 

自 回 归 模 型 可 以 是 非 平 稳 的 也 可 以 是 平稳 的 。 

时 间 序列 元 素 值 之 间 的 另 一 个 依赖 关系 是 移动 平均 。 此 时 , 未 来 值 可 以 通过 对 前 面 的 一 组 连 
续 值 应 用 移动 平均 得 到 ， 即 

Mm 一 ntl+@an+O Ani + -+O, an 

其 中 : ai (i=n+1,…,n-q ) 表示 一 种 冲击 。 可 以 应 用 很 多 不 同 的 移动 平均 模型 进行 时 间 序 列 未 来 值 
的 预测 。 但 是 要 注意 , 应 用 移动 平均 的 点 与 预测 值 之 间 可 能 会 存在 一 个 时 澡 。 也 可 以 同时 应 用 自 
回归 和 移动 平均 来 对 时 间 序 列 预 测 ， 这 种 方法 称 为 自 回归 移动 平均 模型 。 


23.7 例题 


例 4.51 一 般 来 说 , 随 着 技术 的 进步 和 生产 的 增长 , 新 产品 的 增长 在 其 未 达 饱 和 之 前 遵循 指 
数 曲线 增长 规律 , 但 随 着 产品 销售 量 的 增加 , 产品 总 量 会 接近 于 社会 饱和 量 ， 此 时 预测 模型 应 用 
修正 指数 曲线 。 
表 23.1 是 某 厂 收音 机 销售 量 统计 表 ， 请 预测 下 一 年 的 销售 量 。 
表 23.1 某 厂 收音 机 销售 量 


































































































时 间 (年 ) 1969 1970 1971 1972 1973 1974 1975 1976 1977 
销售 量 (万 部 ) 42.1 47.5 527 5 62.5 67.1 71.5 75.7 79.8 
时 间 (年 ) 1978 1979 1980 1981 1982 1983 
销售 量 (万 部 ) 83.7 87.5 91.1 94.6 97.9 101.1 
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解 : 
计算 前 应 对 数据 进行 检验 ， 看 给 定数 据 的 逐 期 增长 量 的 比率 世 : 世 是否 接 近 某 一 常数 ,如 


Pry 
果 是 ， 则 可 以 采用 修正 指数 曲线 。 对 于 本 例 而 言 ， 此 比例 落 在 [0.9429,0.9762] 区 间 ， 可 认为 是 一 
个 常数 ， 因 此 本 例 的 预测 可 以 采用 修正 指数 曲线 模型 。 
>> x=[42.1000 47.5000 52.7000 57.7000 62.5000 67.1000 71.5000 75.7000 79.8000 
83.700087.5000 91.1000 94.6000 97.9000 101.1000]; 
>> y=expcurve (x,1) 
y= range: [0.9429 0.9762]  ”% 比 率 值 
val: 104.2037 
a: -143.2063 
b: 0.9608 
Ks L797162 


例 4.52 ”Gomperta 曲线 是 一 种 常用 的 时 间 序列 模型 。 它 的 特点 是 开始 增长 很 慢 ， 随 后 逐渐 
加 快 ， 同 时 达到 一 定 阶段 变 慢 直 到 增长 速度 慢 慢 趋 于 0。 其 走向 很 像 一 个 顺 时 针 倾斜 的 字母 S。 


该 模型 的 数学 表达 式 为 
y= ka’ 
请 用 此 模型 对 例 4.51 中 的 数据 进行 预测 。 
解 : 


>> x=[42.1000 47.5000 52.7000 57.7000 62.5000 67.1000 71.5000 75.7000 79.8000 
83.7000 87.5000 91.1000 94.6000 97.9000 101.1000]; 
>> y=gomperta (x,1) 
y= range: [0.9429 0.9762] 
Val 103.4399 
a: 0.2840 
b: 0.9048 
天 2 133.3341 





例 4.53 ”Logistic 曲线 是 数学 家 Veihulot 在 研究 人 口 增长 规律 时 首先 提出 的 。 它 的 特点 与 
Gomperta 曲线 相似 。 在 很 多 情况 下 ， 这 两 种 模型 是 可 以 互 换 使 用 的 。 


Logistic 曲线 的 数学 式 为 





























在 使 用 此 模型 时 , 天 值 既 可 以 指定 也 可 能 通过 计算 而 得 。 
请 用 此 模型 ， 对 下 列 时 间 序 列 数 据 进行 分 析 。 
y=[41 51 71 166 248 329 360 381 399] 
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解 : 

>> x=[41 51 71 166 248 329 360 381 399]; 

>> y=logistic curve (x,1,410) ”指定 k 
y=range: [0.2471 1.4593] 

val: 404.1176 

m: 29.0654 

a 0=7599 

>> y=logistic curve (x,1)  $ 不 指定 k 
y= range: [0.2471 1.4593] 

val: 407.1473 

a O20 

m: 25.1414 

k: 414.7849 


例 4.54 在 时 间 序 列 的 预测 中 , 由 于 自 适 应 滤波 法 的 预测 模型 简单 ,又 可 以 在 计算 机 上 对 数 
据 进行 处 理 ， 所 以 这 种 预测 方法 应 用 较为 广泛 。 

自 适 应 滤波 技术 有 两 个 明显 的 优点 : 一 是 技术 比较 简单 ,可 根据 预测 意图 来 选择 权 数 的 个 数 
和 学 习 常数 ， 以 控制 预测 ,也 可 以 由 计算 机 自动 选 定 。 二 是 它 使 用 了 全 部 历史 数据 来 寻求 最 佳 权 
系数 ， 并 随 数据 轨迹 的 变化 而 不 断 更 新 权 数 ， 从 而 不 断 改进 预测 。 

下 面 利 用 此 技术 预测 x=0.1:0.1:1 时 间 序 列 。 

解 : 
自 适 应 滤波 法 的 基本 预测 公式 为 


和 N 
Vin = MP + Wt + Wy = Wi 
i=1 


式 中 : wj 为 权重 ; 为 权重 个 数 ; ys 为 第 r+1 期 的 预测 值 ， 权 重 的 修正 公式 为 : 
W = Wi +2kenyein 
式 中 : 为 学 习 常 数 ，eiw1 为 第 ++1 期 的 预测 值 的 误差 :=NN+1,…,n，n 为 序列 长 度 。 可 以 看 出 ， 权 
重 的 调整 项 包括 预测 误差 、 原 观测 值 和 学 习 常数 三 个 因素 , 学 习 常 数 k 的 大 小 决定 权 数 调整 的 速度 。 
根据 自 适应 滤波 法 的 原理 ， 可 编程 计算 ， 得 到 结果 如 下 : 


> Rl 0 











>> y=adapt curve(zx,2,[3 4 7 9],0.9) 

y=w: [1.9999 -0.9999] gs 最 后 的 权重 

val: [1.3000 1.4000 1.7001 1.9003] s 预 测 值 

例 4.55 均 生 函数 是 一 种 较为 常用 的 时 间 序 列 预测 技术 。 表 23.2 为 1950 一 1980 年 期 间 我 国 
收入 指数 ， 求 其 延 拓 均 生 函数 ， 并 分 析 优 势 周 期 。 
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表 23.2 1950 一 1980 年 我 国 收 入 指数 










1170 | 92.8 | 


1960 | 986 | 703 | 9035 
973 | 1078 | 1123 | 1070 


1970 | 1233 | 107.0 | 1029 












1980 





对 有 时 间 序 列 x(D={x(1)x(2),…,x(N)}， 定 义 均值 生成 函数 


x1() = +iDiEl,- ,1<I<M 
Xi(i) = Lu0 nD 二 


-0 
式 中 : nm 为 满足 < 六] 的 最 大 整数 ， M = 为 不 超过 N/2 的 最 大 整数 ， 当 N 为 偶数 时 ， 


区 = 立 ， 当 为 厅 数 时 ，E =-1 


由 此 可 见 ， 均 值 生成 函数 是 由 时 间 序 列 按 一 定 的 时 间 间 隔 计算 均值 而 派生 出 来 的 。 
对 均 生 函数 作 周 期 性 延 拓 ， 即 构造 如 下 的 矩阵 


xD : xuw(0) 


x 
Fk 0) : xu 0) 
x Ox) :x (i) 


其 中 ，xz(%) 表示 取 x(1) ，x2(2) 之 一 ， 其 余 类 推 。 称 hf，1= 1,2,…,M 为 延 拓 均 生 函数 。 


根据 均 生 函数 的 定义 ， 可 编程 计算 ， 得 到 如 下 结果 

te 
7 hl 
ee eo eo Ri08ES 汪 97E3 TO07S5 207 0 本 本 
106.4 104.9 108.3 109.8 113.5 112.7]; 

>>y=meangcyc (x) 

y=13 8 5 7 17 sg 优势 周期 
例 4.56 某 气象 站 1958 一 1977 年 7 月 降水 量 ( mm ) 序 列 为 :x(D=[130 50 220 140 100 380 110 
140 110 220 160 170 410 70 60 200 170 70 220 190]， 请 预报 1978 年 的 降水 量 。 
解 : 
利用 均 生 函数 求 得 的 优势 周期 就 可 以 预测 时 间 序 列 。 通 过 计算 得 到 预测 值 为 90mm, 实际 值 


为 100mm。 
>> x=[130 50 220 140 100 380 110 140 110 220 160 170 410 70 60 200 170 70 220 





190]; 
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>> [y,L]=meangcyc (x,1) 
y=90 $ 预 测 值 
I=7 $ 优 势 周期 
例 4.57 赤道 东 太 平 洋 地 区 是 一 个 反映 全 球 大 气 和 海洋 变化 的 敏感 区 域 , 对 全 球 气候 有 着 重 
生 在 这 里 。 表 23.3 给 出 了 这 一 地 区 1951 一 1985 年 35 年 秋季 ( 9 一 11 











月 ) 海 温 的 观察 值 ， 试 用 逐步 回归 方程 及 主 成 分 分 析 建 立 预测 模型 。 


表 23.3 海 温 观察 值 CC) 
25.7 25.2 24.7 25.4 26.6 26.0 25.7 25.9 25.5 25.4 26.4 24.9 26.8 25.4 25.1 26.0 
25.2 25.1 27.2 24.9 25.3 24.8 26.6 25.9 25.4 25.9 25.7 25.5 26.7 26.1 25.3 25.4 





(1 ) 逐步 回归 法 。 
>>1oad mydata; 


>> y=meang (x1); 





>> yl=[ones(34,1) y(:,2:17)]; stepwise(yl,x1') s 逐 步 回归 工具 
>> beta; $ 回 归 系 数 ， 其 中 fi 为 第 i 个 延 拓 均 生 函数 
从 逐步 回归 过 程 中 可 得 到 最 终 的 回归 方程 为 
xD) = —0.9732f, 一 0.9817f +0.8023f +0.2382f, 
+0.4007f +0.4388f， +0.3757f， 
+0.4228f +0.2633f， 


根据 回归 方程 可 得 到 图 23.2。 





27.5 T T T T T 














26.5[- 


25 


24.5 














24 1 1 1 1 
0 


图 23.2 预测 与 实际 值 
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如 果 要 对 以 后 的 时 间 点 进行 预测 , 则 可 以 对 回归 方程 中 的 各 延 拓 均 生 函数 进行 延 拓 , 然后 再 
根据 回归 方程 式 计算 即 可 。 如 要 预测 下 一 个 时 间 点 的 海 温 值 ， 则 其 值 为 
yn=-0.9732*25.7765-0.9817*25.7364+0.8023*25.56+0.2382*26.475+0.4007*25.8.. 





O04388*25、13330.3757*25.25+054228*25.240:2633*26:55 
=24.9602 
(2) 主 成 分 分 析 法 。 
>> y=meangprin (x); 


>> plot (1:34,x,'0-'); hold on; plot (1:34,y,'o-'); $ 图 23.3 














图 23.3 预测 与 实际 值 


从 图 中 可 看 出 ， 此 结果 要 好 于 第 1 种 方法 。 

例 4.58 ”铁路 客运 量 预测 是 铁路 旅客 运输 组 织 工作 的 重要 基础 , 能 为 合理 安排 运输 计划 提供 
重要 的 决策 支持 ， 有 助 于 铁路 旅客 运输 企业 根据 客运 市 场 的 变化 , 动态 实时 地 调整 产品 结构 , 对 
促进 铁路 客运 的 发 展 具有 十 分 重要 的 意义 。 

从 预测 时 间 的 长 短 角度 考虑 ， 可 将 铁路 客运 量 预测 方法 分 为 长 期 预测 研究 和 短期 预测 研究 。 
前 者 是 根据 影响 铁路 客运 量 因素 ( 如 流动 人 口 、GDP、 铁 路 基础 设施 建设 情况 等 ) 来 预测 今后 较 
长 一 段 时 期 内 的 客运 量 ; 而 后 者 则 是 从 短期 时 间 内 比如 月 、 日 的 客运 量变 化 等 为 出 发 点 ,研究 铁 



































路 客运 量 的 变化 情况 。 

表 23.4 是 我 国 某 段 时 间 内 铁路 客运 量 及 相关 因素 值 ， 请 预测 下 一 年 的 客运 量 ( 即 表 中 空格 
中 值 )。 

解 : 


可 以 用 多 种 方法 求解 本 问题 。 在 此 例 中 采用 多 元 线性 回归 方法 。 
>>y=[933089508510016410507310515510560697260111764115583125656135670]”; 
>>x=[78973 123626 6.60;84402.3 124761 6.64;89677.1 125786 6.74;99214.6 126583 
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581:109655.2 127627 T70112033237 128453, 7:1971359822.8 129227 T7307 
159878.3 129988 7.44;183217.4 130756 7.54;211923.5 131448 7.71;257305.6 
L132129 7。801> 
>>xx=[300670.0 132803 7.97]; 
>> [beta stats, yy, ylr]=myregress (x, y, xx, 0.95, 'm'); %0.95 为 置信 度 

表 23.4 客运 量 及 其 影响 因素 


铁路 客运 量 (万 人 ) 人 口 (二 万 人 ) 铁路 营业 里 程 (万 公里 ) 

















93308 78973 123626 6.60 
95085 84402.3 124761 6.64 
100164 89677.1 125786 6.74 
105073 99214.6 126583 6.87 
105155 109655.2 127627 7.01 
105606 | 1203327 | 128453 7.19 
97260 | 1358228 | 129227 7.30 
111764 | 1598783 | 129988 7.44 
115583 130756 7.54 
125656 131448 7271 
135670 132129 7.80 

132803 7.97 


从 计算 结果 可 看 出 ， 第 7 个 样本 预测 误差 较 大 (图 23.4 )， 所 以 应 采用 稳健 回归 方法 。 

















图 23.4 客运 量 的 实际 值 及 不 同方 法 的 预测 值 
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下 一 年 的 预测 结果 为 146110， 实 际 值 为 143754。 
例 4.59 对 由 下 式 产生 的 时 间 序 列 (长度 为 1000 ) 进行 1、2、3 步 的 预测 。 
下 -08 = 04 &~N(0,) 








解 : 
根据 Garch Toolbox 中 自 回归 的 相关 函数 ， 可 计算 如 下 。 从 结果 可 看 出 ， 两 者 的 结果 相关 较 
差 。 这 主要 是 由 于 没有 对 模型 优化 ， 即 对 自 回归 模型 中 的 阶 数 没有 优化 。 

>>randn('state', sum(clock)); 


epls=randn (1,1000) ;x(1)=0; 


for j=2:1000 
x(j)=0.8*x(j-1)+epls(j)-0.4*epls (j-1); 
end 
Spec=garchset("R" 1 "M1 display "OFF )s gs 设 定 模型 
[coeffx, errorx, LLfx]=garchfit (spec, x); sg 模拟 
[sigmaforcast, x forcast]=garchpred (coeffx, x, 3); sg 预 测 


x theory(1)=0.8*x(1000) ;x theory(2)=0.8*x theory(1) 7X theory(3)=0.8*x t 
heory (2); 
也 可 以 利用 以 下 MATLAB 中 的 相关 函数 进行 计算 ， 得 到 图 23.5。 
>> th=ivar (x',5);a=th2arx (th) ;datal=predict(x(1:50) "th) 7 预测 
>> el=pe(x(1:50)',th)7Pplot(el)zhold 
nzplottxl 5307 DZPloEGatally p=")? 















































图 23.5 原始 信号 、 模 拟 信号 及 误差 图 
例 4.60 表 23.5 为 某 水 井 水 位 值 数据 。 请 预报 下 一 年 每 个 月 ( 即 12 个 ) 的 水 位 值 。 
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下 一 年 的 预测 结果 为 146110， 实 际 值 为 143754。 
例 4.59 对 由 下 式 产生 的 时 间 序 列 (长度 为 1000 ) 进行 1、2、3 步 的 预测 。 
下 -08 = 04 &~N(0,) 








解 : 
根据 Garch Toolbox 中 自 回归 的 相关 函数 ， 可 计算 如 下 。 从 结果 可 看 出 ， 两 者 的 结果 相关 较 
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也 可 以 利用 以 下 MATLAB 中 的 相关 函数 进行 计算 ， 得 到 图 23.5。 
>> th=ivar (x',5);a=th2arx (th) ;datal=predict(x(1:50) "th) 7 预测 
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nzplottxl 5307 DZPloEGatally p=")? 















































图 23.5 原始 信号 、 模 拟 信号 及 误差 图 
例 4.60 表 23.5 为 某 水 井 水 位 值 数据 。 请 预报 下 一 年 每 个 月 ( 即 12 个 ) 的 水 位 值 。 
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根据 Garch Toolbox 中 自 回归 的 相关 函数 ， 可 计算 如 下 。 从 结果 可 看 出 ， 两 者 的 结果 相关 较 
差 。 这 主要 是 由 于 没有 对 模型 优化 ， 即 对 自 回归 模型 中 的 阶 数 没有 优化 。 

>>randn('state', sum(clock)); 


epls=randn (1,1000) ;x(1)=0; 


for j=2:1000 
x(j)=0.8*x(j-1)+epls(j)-0.4*epls (j-1); 
end 
Spec=garchset("R" 1 "M1 display "OFF )s gs 设 定 模型 
[coeffx, errorx, LLfx]=garchfit (spec, x); sg 模拟 
[sigmaforcast, x forcast]=garchpred (coeffx, x, 3); sg 预 测 


x theory(1)=0.8*x(1000) ;x theory(2)=0.8*x theory(1) 7X theory(3)=0.8*x t 
heory (2); 
也 可 以 利用 以 下 MATLAB 中 的 相关 函数 进行 计算 ， 得 到 图 23.5。 
>> th=ivar (x',5);a=th2arx (th) ;datal=predict(x(1:50) "th) 7 预测 
>> el=pe(x(1:50)',th)7Pplot(el)zhold 
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图 23.5 原始 信号 、 模 拟 信号 及 误差 图 
例 4.60 表 23.5 为 某 水 井 水 位 值 数据 。 请 预报 下 一 年 每 个 月 ( 即 12 个 ) 的 水 位 值 。 
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表 23.5 水 井 水 位 值 单位 : 米 
年 次 1 全 9 10 11 12 

1 9.40 | 8.81 10.01 11.54 11.64 | 11.39 | 11.0 | 10.85 
10.71 | 10.24 9.88 10.53 7.75 | 7.80 | 5.95 | 5.21 
3 6.39 | 6.38 友 针 "| 吏 8.49 9.65 | 926 | 8.84 | 8.29 
4 721 | 6.93 | 7: 7.82 9.59 8.94 | 8.81 | 8.50 | 8.30 
5 7.66 | 7.68 8.53 10.09 10.49 | 9.21 | 8.66 | 8.39 
6 8.27 | 8.14 10.43 11.73 11.55 | 11.35 | 11.11 | 10.4 
7 10.16 | 9.96 11.70 10.37 10.83 | 10.64 | 10.29 | 10.34 
解 : 
在 处 理 时 间 序 列 时 , 首先 要 判断 序列 是 否 平稳 。 这 可 以 从 原 信号 图 、 自 相关 系数 图 和 偏 相关 












































系数 图 23.6 看 出 ， 只 有 当 3 个 图 的 基线 平稳 ， 才 可 以 认为 是 平稳 信和 号。 很 明显 ， 此 例 中 的 信号 
不 是 一 个 平稳 序列 ， 另 外 还 有 明显 的 季节 性 。 
原样 信号 图 E 自 相 关系 数 . 偏 相 关系 数 
2 1 0.8 ] 0.8 - 
11 ] 
0.6 - 0.6 | 
101 | 
0.4 -1 0.4 1 
9 J 
0.2 1 0.2 | 
8 | 
0 ] 0 J 
7 J 
6 ] -0.2 1 -0.2 了 
5 二 -0.4 -0.4 
0 50 100 0 20 40 0 20 40 
图 23.6 信号 、 自 相关 和 偏 相关 系数 图 
使 非 平 稳 信 号 变 成 平稳 信号 , 最 简便 的 方法 便 是 对 原 信 号 作 差 分 运算 。 至 于 要 作 多 少 次 差 





分 ， 可 以 从 自 相关 系数 的 平稳 性 及 差分 后 的 信号 稳定 性 作出 判断 。 在 此 例 中 作 一 次 差分 即 可 。 
>>1oad data; 
>> [X forcast,coeff,order]=myar (x,12); 
x forcast =[10.0970 8.7265 9.5783 11.6732 10.9280 11.3674 12.3747 
15573, 11.3022 10:6469 9.2565 9.3095]; gs 预测 结果 
order=15 6 s% 模 型 的 阶 数 
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例 4.61 时 间 序 列 中 相似 子 序列 的 搜索 是 时 间 序列 数据 挖掘 中 的 一 项 很 有 意义 的 工作 。 一 般 
常 使 用 欧 氏 距离 作为 对 象 间 相似 性 的 度量 ,距离 越 小 它们 越 相似 。 但 对 时 间 序 列 而 言 , 因 有 可 能 
存在 空间 弯曲 现象 ， 所 以 欧 氏 距离 不 适合 作为 时 间 序 列 相 似 性 搜索 度量 ， 而 要 使 用 动态 距离 dtw 


(或 称 弯曲 距离 )。 
现 随 机 产生 3 个 时 间 序 列 ， 并 求 它们 之 间 的 动态 弯曲 距离 。 
解 : 


根据 算法 原理 ， 可 编程 计算 得 到 如 下 的 结果 。 
>>x=1+3*rand(1,300) 7X1=1+2*rand(1,300) ;y=l+rand(1,100); 
>> [dist,w]=mydtw (y,x1); s 函 数 输 出 变量 中 的 w 为 路 径 
dist= 8.5341 
>> [dist,w]=mydtw (y,X); 
dist=17.3455 
例 4.62 在 解决 时 间 序列 的 实际 问题 时 , 为 了 减少 计算 量 , 常常 需要 压缩 , 以 减少 它 的 长 度 ， 
但 不 失真 。 压 缩 的 方法 有 很 多 ， 分 段 线性 表示 其 中 的 一 种 。 
试 对 下 列 序列 用 分 段 线性 方法 表示 。 
ET 0.A4 9594 1025 UI 0 968 085 250 L390 T2220 T2003 2 A 
dd Lo To L300 LA SS 15 06 LS LT LT lo 25 TI L320.3 .1090021531 


解 : 
分 段 线性 表示 时 间 序 列 有 不 同 的 分 割 方法 ， 函 数 中 采用 3 种 方法 。 图 23.7 为 计算 结果 。 














22 
双 
1 
1 上- 
1 ] 
1 
1o- 
0 5 10 15 20 25 ao 
图 23.7 原 序列 的 分 段 线性 表示 
可 看 出 用 15 个 点 来 代表 原来 28 个 点 所 组 成 的 序列 。y 中 第 1 列 为 分 割 点 ， 第 2 ~ 23 列 为 每 段 线 





的 斜率 和 截 距 ， 第 4 列 为 原 序 列 每 段 的 误差 ,用 每 点 残 差 平方 和 表示 。 
>>[y,me, lamda]=PLR(x,1,0.15); 0.-15 为 国 值 ， 这 个 值 直接 影响 结果 
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例 4.63 时 间 序 列 的 异常 检测 是 时 间 序 列 挖掘 的 一 个 重要 内 容 , 在 网 络 入 侵 、 故 障 检测 等 领 
域 中 有 着 广泛 的 应 用 。 

异常 点 有 检测 有 很 多 种 方法 , 最 简单 的 便 是 根据 统计 学 原理 , 其 值 与 均值 的 差异 超过 2 倍 的 
标准 差 的 点 有 可 能 是 异常 点 。 现 根据 这 一 原理 ， 对 某 一 时 间 序 列 (图 23.8 ) 找 出 可 能 的 异常 点 。 








18.5 T T F T . T T T T 





一 一 




















1 1 1 1 
100 120 140 160 180 200 








图 23.8 信号 图 


>>1oad data; 

>>n=length (x) ;plot (x) ;hold on; 

al=prctile (x, 75) ;a2=prctile (x, 25) ;Rl=al-a2;al=al-1.5*R1;a2=a2+1 .5*R1; 
line ([0 n], [al al],'color', 'r') ;text (0.04,al+0.04，"' 上 四 位 数 -1.5* 下 四 位 数 ') 
line([0 n], [a2 a2],'color', 'r');text (0.02,a2+0.04,' 上 四 位 数 +1.5* 下 四 位 数 ') 
CO0=mean (x) ;cs=std (x) ;cl1l=c0+2*cs;Cc2=c0-2*cs; 

line([0n], [cl c1],'color', 'r','linestyle', '——');text (0.4,c1+0.04, 'h+20°'); 
line([0n], [c2 c2],'color', 'r','linestyle','——');text (0.4,c2+0.04, 'h-20'); 
U=x-c0;y=find (U>2*cs) ;y=[y find(U<-2*cs)]; 

得 到 以 下 的 点 为 异常 点 的 可 能 性 较 大 : 

Y=3L '63. 192 ‘19 192° 490 106 

例 4.64 在 时 间 序 列 的 数据 挖掘 中 , 基于 小 波 分 析 的 技术 也 是 常用 的 一 种 方法 。 小 波 分 析 既 

可 以 将 时 间 序 列 降 噪 、 降 维 ， 也 可 以 进行 相似 性 的 应 用 。 

下 面 对 一 系列 的 模拟 信号 进行 小 波 处 理 。 
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解 : 
图 23.9 为 两 个 随机 产生 的 信号 区 








， 从 图 中 可 直观 看 出 这 两 者 间 相 似 度 较 小 。 
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图 23.9 原始 信号 图 
它们 进行 相似 度 分 析 可 得 到 如 下 结果 。 
>> epls=randn (1, 1000) ;x (1)=0; for j=2:1000;x(j)=0.8*x(j-1)+epls (j)-0.4*epls (j-1) ;end 
>> epls=randn (1, 1000) ;y(1)=0; for j=2:1000y(j)=0.8*y(j-1)+epls (j)-0.4*epls (j-1) ;end 
>>subplot (121) ,plot (x) ;subplot (122) ,plot (y); 
>> [Seqsim,Sim]=wavesim(x,y,2,3); 


s% 即 为 相似 度 
小 波 分 析 还 可 以 用 于 对 信号 的 降 品 、 降 维 的 处 理 。 试 用 此 方法 对 例 4.64 中 的 x 原 


>>Sim=0.5641 


例 4.65 


始 信号 进行 相应 的 处 理 。 


解 : 
>>wname="'sym6';lev=5; 
>>[c,1]=wavedec (x, lev,wname); 


>>sigma=wnoisest (c,1,1); 


>> alpha=2;thr=wbmpen (c,1,sigma,alpha); gs 国 值 
>>keepapp=1; 

>> xd=wdencmp ('gbl',c,1,wname, lev,thr, 's',keepapp); gs 降 噪 后 的 信号 
>> plot (xd) s 图 23.10 
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图 23.10 原始 信号 降 噪 后 的 信号 图 
以 下 对 原始 信号 进行 降 维 : 
>> [c,1]=wavedec (x,5, 'db3'); d5=wrcoef('d',c,1,'db3',5); d4=wrcoef('d',c,1, 'db3',4); 
d3=wrcoef ('d',c,1, 'db3"',3);d2=wrcoef ('d',c,1,'db3"',2);dl=wrcoef ('d',c,1,'db3"',1); 
从 图 23.11 中 可 看 出 ， 适 当 层 的 细节 系数 可 代替 原始 信号 。 
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图 23. 11 小 波 分 解 后 的 各 细节 系数 图 
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24.1 关联 规则 的 类 型 及 挖掘 算法 


关联 规则 用 于 发 现 交易 数据 库 中 不 同 商品 (项 ) 之 间 的 联系 , 这些 规则 反映 了 顾客 购买 的 行 
为 模式 。 发 现 这 样 的 规则 可 以 应 用 于 顾客 购物 分 析 、 目 录 设 计 、 商 品 广告 邮寄 分 析 、 商 品 货架 设 
计 、 互 联网 用 户 的 浏览 习惯、 仓储 规划 、 网 络 故障 分 析 以 及 根据 购买 模式 对 用 户 进行 分 类 等 方面 。 

关联 规则 有 许多 类 型 ， 根 据 不 同 的 标准 ， 关 联 规则 有 不 同 的 分 类 方法 。 

根据 规则 所 处 理 的 值 的 类 型 可 以 将 关联 规则 分 为 布尔 关联 规则 和 量化 关联 规则 。 若 所 考虑 的 
关联 规则 是 项 的 在 与 不 在 ， 则 它 是 布尔 关联 规则 ， 它 表明 了 离散 (分 类 ) 对 象 之 间 的 关系 。 如 果 
规则 所 描述 的 是 量化 的 项 或 属性 之 间 的 关联 , 则 它 是 量化 关联 规则 , 在 此 规则 中 , 项 和 属性 的 量 
化 值 划 分 为 区 间 ， 涉 及 动态 离散 化 的 数值 属性 ， 也 可 能 涉及 分 类 属性 。 

根据 规则 中 涉及 的 数据 维 ， 可 以 将 关联 规则 分 为 单 维 关联 规则 和 多 维 关联 规则 。 单 维 关联 
规则 中 的 项 或 属性 只 涉及 单个 维 或 谓词 ( 即 一 个 属性 或 列 ) ， 它 表明 了 属性 的 内 在 联系 。 或 关 
联 规则 涉及 两 个 或 多 个 ( 不同 的 ) 谓词 或 维 ， 则 它 是 多 维 关联 规则 ， 它 表明 了 属性 间 的 联系 ， 
即 属性 / 维 之 间 的 关联 。 

根据 规则 所 涉及 的 抽象 层 可 以 将 关联 规则 分 为 单 层 关联 规则 和 多 层 关联 规则 。 单 层 关联 规则 
是 指 在 给 定 的 规则 集中 , 规则 挖掘 只 涉及 相同 抽象 层 的 项 或 属性 。 若 在 给 定 的 规则 集中 , 所 挖掘 
的 规则 涉及 不 同 的 抽象 层 ， 则 称 多 层 关联 规则 。 

根据 关联 规则 挖掘 的 不 同 扩充 , 关联 规则 的 挖掘 可 以 分 为 相关 分 析 、 最 大 大 模式 ( 最 大 模式 ) 
和 大 闭 项 集 挖掘 。 

根据 以 上 的 不 同类 型 的 关联 规则 , 发 展 出 了 相应 的 关联 规则 挖掘 算法 。 这 些 算 法 的 相关 内 容 
已 在 前 面 章节 中 做 了 介绍 , 在 此 主要 介绍 其 他 的 一 些 关 联 规 则 算法 。 


24.2 ”基于 组 织 进化 的 关联 规则 挖掘 


关联 规则 算法 最 基本 的 算法 是 Apriori 算法 ， 现 在 绝 大 关联 规则 挖掘 算法 都 基于 该 算法 的 杠 
架 。 随 着 关联 规则 算法 研究 的 发 展 , 提出 了 一 些 新 的 算法 ， 如 从 遗传 算法 衍生 出 来 的 基于 组 织 进 
化 的 关联 规则 算法 等 算法 。 
24.2.1 组织 的 定义 

对 数据 库 的 数据 可 以 有 不 同方 法 的 表示 。 在 此 用 表 来 表示 ,其 中 表 中 的 每 一 列表 示 一 个 属性 ， 
表 的 每 一 行 表示 一 条 数据 。 先 对 原始 数据 进行 预 处 理 ， 经 离散 化 后 得 到 每 个 属性 的 取 值 ， 用 
下 x1,x2,… wm) 表示 每 一 条 数据 ， 其 中 x 表示 属性 。 

为 计算 方便 ， 将 组 织 ( 若干 个 体 的 集合 ) 中 所 有 对 象 取 值 均 相同 的 属性 称 为 相同 属性 组 织 ， 
用 sameors 表示 。 
由 于 有 的 组 织 可 以 产生 规则 ， 有 的 组 织 不 能 产生 规则 , 所 以 将 组 织 分 成 自由 态 组 织 、 异 常态 
组 织 和 正常 态 组 织 。 
自由 态 组 织 是 指 包含 对 象 个 数 为 1 的 组 织 , 其 集合 记 为 free。 异 常态 组 织 是 指 相同 属性 外 
为 空 的 组 织 ， 记 为 abnormal; 其 余 的 组 织 为 正常 组 织 ， 记 为 normal。 
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24.2.2 ”组 织 适应 度 的 计算 


规则 的 支持 度 、 置 信 度 可 以 从 不 同 的 角度 表明 规则 的 性 质 , 规则 的 支持 度 越 大 ,说明 规 则 在 
数据 集 空间 所 占 的 比例 越 大 , 规则 的 普遍 意义 越 好 ; 规则 的 置信 度 表 示 由 特征 推出 类 别 的 正确 程 
度 , 是 对 关联 规则 准确 度 的 衡量 。 在 组 织 进化 算法 中 , 先 用 组 织 进化 算法 筛选 出 满足 最 小 支持 度 
的 规则 ， 然 后 再 采用 其 他 常规 算法 选 出 满足 要 求 的 规则 。 算 法 中 的 适应 度 函 数 为 


0 (org e free) 
F(X)=1 -1 (org eabnormal) 


sup(x) (org e normal) 


其 中 : sup() 为 关联 规则 的 支持 度 。 可 以 看 出 算法 中 简单 地 将 每 个 组 织 的 相同 属性 集 转化 成 规则 。 

由 于 每 条 规则 的 支持 度 是 不 变 的 , 为 了 避免 频繁 计算 支持 度 和 提取 规则 方便 , 可 以 用 表 的 形 
式 记录 规则 结构 、 支 持 度 、 置 信 度 等 。 在 计算 组 织 的 适应 度 时 ， 可 以 先 搜索 关联 规则 表 ， 如果 存 
在 ， 则 直接 记 取 组 织 的 适应 度 ; 否则 ， 计 算 规 则 的 支持 度 ， 然 后 再 计算 适应 度 ， 并 将 该 关联 规则 
结构 和 相应 的 值 添加 到 关联 规则 。 


24.2.3 ”组 织 进 化 算 子 

组 织 适 应 度 算法 和 传统 遗传 算法 的 运行 机 制 完全 不 同 , 其 进行 操作 作用 在 组 织 上 , 而 不 是 作 
用 在 个 体 上 , 而 且 传统 遗传 算法 中 的 交叉 、 变 异 等 算 子 不 能 直接 应 用 在 该 算法 中 , 需要 重新 定义 。 

(1 ) 合并 算 子 : 随机 选取 两 个 组 织 orgp! 和 orgpz 作为 父 代 ， 将 其 合并 为 一 个 子 代 组 织 orge。 

(2 ) 增 减 算 子 : 随机 选择 两 个 组 织 orgp 和 orgpz 作为 父 代 ， 然 后 从 orgp 中 选择 m% 的 对 象 
加 入 orgpz 中 ， 形 成 两 个 子 代 组 织 orgs 和 orgez。 

(3 ) 交换 算 子 : 从 一 个 种 群 中 随机 选择 两 个 组 织 orgp 和 orgp 作为 父 代 ， 然 后 从 orgpi 中 随 
机 选择 n% 的 对 象 加 入 orgpz 中 ， 再 从 orgpz 中 随机 选择 n% 的 对 象 加 入 orgp: 中 ， 形 成 两 个 子 代 组 
织 orgs 和 orgez。 

(4 ) 组 织 选 择 算 子 : 从 父 代 组 织 和 子 代 组 织 中 ， 选 择 出 适应 度 较 高 的 组 织 ， 并 把 组 织 标记 
为 已 进行 ， 然 后 加 入 下 一 代 。 


24.2.4 ”算法 步骤 


基于 组 织 进化 的 关联 规则 算法 的 具体 步骤 如 下 。 

(1 ) 初始 化 。 将 每 个 对 象 以 自由 态 加 入 种 群 Po 中 ， 进 化 代数 :=0。 

(2 ) 如 果 在 当前 进化 代数 + 中， 种群 已 中 未 进化 的 组 织 个 数 大 于 1， 则 转 到 第 3 步 ， 否则 
转 到 第 5 步 。 

(3 ) 从 P 中 随机 选择 两 个 组 织 orgp: 和 orgps， 当 组 织 orgpi 或 orgpz 中 有 一 组 织 所 含 对 象 个 数 
为 1 时 ， 则 执行 合并 算 子 ;否则 从 增 减 、 交 换 和 合并 算 子 中 随机 选择 一 个 算 子 ， 对 orgp: 和 orgpz 
进行 相应 的 操作 ， 产 生子 代 组 织 orgs 和 orge， 然 后 计算 每 个 组 织 的 适应 度 。 

(4) 从 父 代 和 子 代 组 织 中 ， 选 择 出 适应 度 较 高 的 组 织 加 入 到 下 一 代 。 然 后 转 到 第 2 步 。 
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(5 ) 如 果 进 化 代数 + 达到 了 设 定 的 进化 代数 ， 则 算法 结束 ， 从 关联 规则 中 输入 满足 支持 度 
要 求 的 规则 集 ; 否则 ， 进 化 代数 :的 值 加 1， 转 到 第 2 步 。 

通过 以 上 算法 ， 可 以 得 到 满足 最 小 支持 并 要 求 的 规则 集 ， 然 后 ， 再 根据 最 小 置信 度 的 要 求 ， 
从 所 得 的 关联 规则 集中 选择 出 满足 要 求 的 规则 集 。 


24.3 ”基于 组 织 层次 进化 的 关联 规则 挖掘 


在 关联 规则 算法 中 , 如 何 快速 发 现 所 有 频繁 项 目 集 是 关联 规则 挖掘 过 程 中 最 关键 的 一 步 。 前 
面 提出 的 基于 组 织 进化 的 关联 规则 算法 中 的 进化 算 子 和 组 织 选择 算 子 不 能 达到 这 个 目的 , 需要 定 
义 一 个 新 的 算 子 。 


24.3.1 聚合 算 子 


如 果 组 织 orgp 的 相同 属性 集合 sampos 和 orgp 相同 属性 集合 Samporg,, 是 相等 的 ， 即 
Samporg,, = samporg,, ， 将 组 织 orgp! 和 组 织 orgps 合 并 为 一 个 组 织 orge。 这 样 通过 聚合 算 子 可 将 种 
和 群 中 具有 相等 的 相同 属性 集合 的 不 同 组 织 聚 集 在 一 起 , 形成 一 个 更 大 的 组 织 。 同 时 ,可 以 用 相同 
属性 集合 表 来 加 快 组 织 之 间 相 同属 性 集合 的 比较 。 该 表 的 字段 属性 如 下 : 序列 号 、 属 性 名 、 属 性 
值 、 记 录 个 数 。 其 中 , 记录 个 数 的 含义 是 支持 该 相同 属性 集合 性 质 的 数据 个 数 , 它 的 值 是 可 变 的 ， 
它 最 终 的 值 是 与 规则 的 支持 度 相关 的 , 另外 , 每 个 组 织 加 了 一 个 标记 相同 属性 集合 的 标志 位 , 标 
志 位 的 值 即 为 相同 属性 集合 表 的 序列 号 字段 的 值 , 如 果 该 组 织 不 存在 相同 属性 集合 , 则 该 组 织 标 
志 位 的 值 为 0。 这样, 只 比较 两 个 组 织 的 标志 位 , 就 可 以 知道 两 个 组 织 的 相同 属性 集合 是 否 相 等 。 


24.3.2 ”进化 种 群 pe 和 最 优 种 群 pb 


进化 种 群 p。 是 指 每 条 数据 对 象 的 数目 ， 在 算法 初始 化 时 将 它们 以 自由 态 形式 加 入 。 每 一 代 
进化 结束 后 ， 具有 相同 属性 集合 的 组 织 数目 为 最 优 种 群 po。 种 群 po 中 的 组 织 在 进化 一 定 代数 后 ， 
把 其 中 对 象 个 数 少 于 一 定数 量 的 组 织 解散 , 其 对 象 以 自由 态 组 织 形式 再 加 入 进化 种 群 pe。 因为 种 
群 pe 只 包含 自由 态 组 织 ， 所 以 种 群 pe 在 进化 时 只 执行 合并 算 子 。 但 对 于 种 群 ps 在 进化 时 则 只 执 
行 聚合 算 子 。 这 样 ， 进 化 种 群 ze 和 最 优 种 群 ps 中 的 组 织 是 交替 运行 同时 进行 的 。 另 外 ,还 采用 
组 织 选择 算 子 从 父 代 组 织 和 子 代 组 织 中 选择 出 适应 度 最 高 的 组 织 加 入 下 一 代 进 化 。 


24.3.3 ”算法 步骤 


(1) 定义 4 个 种 群 : 进化 种 群 me、 最 优 种 群 pp、 进 化 暂 存 种 群 ps 和 最 优 暂 存 种 群 pvt; 把 
每 一 条 原始 数据 以 自由 态 组 织 的 形式 加 入 种 群 pe。 中， 把 种 群 mm、Pet 和 pu 置 为 空 集 ; 令 种 群 me 
的 进化 代数 T=0， 种 群 ps 的 进化 代数 Th=0。 

(2 ) 如 果 当 前 进化 代数 .<:， 则 转 为 步骤 (3 ); 否则 ， 转 步骤 ( 11 )。 

(3 ) 如 果 种 群 pa 中 的 组 织 个 数 宇 1， 则 把 种 群 pe 中 的 组 织 转 入 种 群 pe。 中。 

(4 ) 如 果 在 当前 进化 代数 中 ,种群 p。 中 未 进化 的 组 织 个 数 > 1， 则 转 到 步骤 ( 5 ); 否则 转 
到 步骤 (6 )。 

(5 ) 从 种 群 p。 中 随机 选择 两 个 组 织 orgp: 和 orgps, 执行 合 并 算 子 ， 产生 orgs; 计算 组 织 orge 
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(5 ) 如 果 进 化 代数 + 达到 了 设 定 的 进化 代数 ， 则 算法 结束 ， 从 关联 规则 中 输入 满足 支持 度 
要 求 的 规则 集 ; 否则 ， 进 化 代数 :的 值 加 1， 转 到 第 2 步 。 

通过 以 上 算法 ， 可 以 得 到 满足 最 小 支持 并 要 求 的 规则 集 ， 然 后 ， 再 根据 最 小 置信 度 的 要 求 ， 
从 所 得 的 关联 规则 集中 选择 出 满足 要 求 的 规则 集 。 


24.3 ”基于 组 织 层次 进化 的 关联 规则 挖掘 


在 关联 规则 算法 中 , 如 何 快速 发 现 所 有 频繁 项 目 集 是 关联 规则 挖掘 过 程 中 最 关键 的 一 步 。 前 
面 提出 的 基于 组 织 进化 的 关联 规则 算法 中 的 进化 算 子 和 组 织 选择 算 子 不 能 达到 这 个 目的 , 需要 定 
义 一 个 新 的 算 子 。 


24.3.1 聚合 算 子 


如 果 组 织 orgp 的 相同 属性 集合 sampos 和 orgp 相同 属性 集合 Samporg,, 是 相等 的 ， 即 
Samporg,, = samporg,, ， 将 组 织 orgp! 和 组 织 orgps 合 并 为 一 个 组 织 orge。 这 样 通过 聚合 算 子 可 将 种 
和 群 中 具有 相等 的 相同 属性 集合 的 不 同 组 织 聚 集 在 一 起 , 形成 一 个 更 大 的 组 织 。 同 时 ,可 以 用 相同 
属性 集合 表 来 加 快 组 织 之 间 相 同属 性 集合 的 比较 。 该 表 的 字段 属性 如 下 : 序列 号 、 属 性 名 、 属 性 
值 、 记 录 个 数 。 其 中 , 记录 个 数 的 含义 是 支持 该 相同 属性 集合 性 质 的 数据 个 数 , 它 的 值 是 可 变 的 ， 
它 最 终 的 值 是 与 规则 的 支持 度 相关 的 , 另外 , 每 个 组 织 加 了 一 个 标记 相同 属性 集合 的 标志 位 , 标 
志 位 的 值 即 为 相同 属性 集合 表 的 序列 号 字段 的 值 , 如 果 该 组 织 不 存在 相同 属性 集合 , 则 该 组 织 标 
志 位 的 值 为 0。 这样, 只 比较 两 个 组 织 的 标志 位 , 就 可 以 知道 两 个 组 织 的 相同 属性 集合 是 否 相 等 。 


24.3.2 ”进化 种 群 pe 和 最 优 种 群 pb 


进化 种 群 p。 是 指 每 条 数据 对 象 的 数目 ， 在 算法 初始 化 时 将 它们 以 自由 态 形式 加 入 。 每 一 代 
进化 结束 后 ， 具有 相同 属性 集合 的 组 织 数目 为 最 优 种 群 po。 种 群 po 中 的 组 织 在 进化 一 定 代数 后 ， 
把 其 中 对 象 个 数 少 于 一 定数 量 的 组 织 解散 , 其 对 象 以 自由 态 组 织 形式 再 加 入 进化 种 群 pe。 因为 种 
群 pe 只 包含 自由 态 组 织 ， 所 以 种 群 pe 在 进化 时 只 执行 合并 算 子 。 但 对 于 种 群 ps 在 进化 时 则 只 执 
行 聚合 算 子 。 这 样 ， 进 化 种 群 ze 和 最 优 种 群 ps 中 的 组 织 是 交替 运行 同时 进行 的 。 另 外 ,还 采用 
组 织 选择 算 子 从 父 代 组 织 和 子 代 组 织 中 选择 出 适应 度 最 高 的 组 织 加 入 下 一 代 进 化 。 


24.3.3 ”算法 步骤 


(1) 定义 4 个 种 群 : 进化 种 群 me、 最 优 种 群 pp、 进 化 暂 存 种 群 ps 和 最 优 暂 存 种 群 pvt; 把 
每 一 条 原始 数据 以 自由 态 组 织 的 形式 加 入 种 群 pe。 中， 把 种 群 mm、Pet 和 pu 置 为 空 集 ; 令 种 群 me 
的 进化 代数 T=0， 种 群 ps 的 进化 代数 Th=0。 

(2 ) 如 果 当 前 进化 代数 .<:， 则 转 为 步骤 (3 ); 否则 ， 转 步骤 ( 11 )。 

(3 ) 如 果 种 群 pa 中 的 组 织 个 数 宇 1， 则 把 种 群 pe 中 的 组 织 转 入 种 群 pe。 中。 

(4 ) 如 果 在 当前 进化 代数 中 ,种群 p。 中 未 进化 的 组 织 个 数 > 1， 则 转 到 步骤 ( 5 ); 否则 转 
到 步骤 (6 )。 

(5 ) 从 种 群 p。 中 随机 选择 两 个 组 织 orgp: 和 orgps, 执行 合 并 算 子 ， 产生 orgs; 计算 组 织 orge 
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的 相同 属性 集合 ， 如 果 组 织 org 有 相同 属性 集合 ， 则 把 该 组 织 转 入 种 群 pve 中 ; 如 果 组 织 org。 没 
有 相同 属性 ， 则 把 组 织 orgp: 和 orgps 标 记 为 已 进化 ， 同 时 删除 组 织 orgs*， 转 到 步骤 ( 4 )。 

(6 ) 如 果 种 群 pet 中 的 组 织 个 数 三 1, 则 把 种 群 zu 中 的 组 织 加 入 种 群 问 中 ,然后 转 到 步骤 ( 7 ); 
否则 ， 令 T=7Tetr1， 转 到 步骤 (2 )。 

(7) 如 果 当 前 进化 代数 万 入 M， 则 转 到 步骤 ( 8 ); 否则 ， 转 到 步骤 ( 10 )。 

(8 ) 如 果 在 当前 进化 代数 中 ， 种 群 ps 中 未 进化 的 组 织 个 数 > 1， 则 转 到 步骤 (9 ); 否则 转 
到 步骤 ( 10 )。 

(9 ) 从 种 群 po 中 随机 选择 两 个 组 织 orgp! 和 orgmz， 执 行 合 并 算 子 。 

(10 ) 如 果 元 宇 M， 则 统计 种 群 po 中 每 个 组 织 的 对 象 个 数 ， 把 对 象 个 数 小 于 的 组 织 解 散 ， 
其 对 象 以 自由 态 组 织 形式 转 入 种 群 pt 中 , 令 n=0，T=Tet1， 转 到 步骤 (2 ); 否则 , 令 Ti=Ti+l， 
转 到 步骤 (7 )。 

(11 ) 如 果 算 法 满足 终止 条 件 ， 则 把 种 群 p。 中 支持 度 满足 要 求 的 相同 属性 集合 作为 关联 规 
则 输出 ; 否则 ,， 令 Te=Te+1， 转 到 步骤 (2 )。 


24.4 ”多 维 关联 规则 挖掘 


通过 对 关联 规则 挖掘 的 深入 研究 ， 可 以 发 现在 应 用 中 需要 一 种 能 兼顾 适应 度 和 支持 度 条 件 ， 
同时 挖掘 出 多 个 关联 规则 的 快速 算法 。 比 较 各 种 算法 的 优 缺 点 ， 发 现 多 克隆 算法 符合 这 一 条 件 ， 
此 算法 收敛 速率 快 , 具有 并 行 性 和 记忆 功能 ,并且 不 能 导致 种 群 多 样 性 的 减弱 , 具有 很 强 的 全 局 
及 局 部 搜索 能 力 。 


24.4.1 染色 体 的 编码 
多 克隆 算法 建立 在 编码 的 基础 之 上 , 合适 的 编码 方法 会 提高 后 续 工 作 的 效率 。 在 此 , 采用 十 
进 制 编码 。 
在 关联 规则 的 挖掘 中 , 通过 对 数据 进行 概 化 和 归纳 , 可 能 会 删除 一 些 对 数据 挖掘 没有 太 大 意 
义 的 属性 列 ， 但 保留 多 个 属性 列 。 
多 维 关联 规则 挖 据 所 得 到 的 一 般 是 由 各 个 属性 的 合 取 式 组 成 的 形 如 
AINdsN\--- NA >BINBsN\--…- NBn 
的 规则 ， 可 以 用 这 样 一 个 大 代码 表示 : 
(1 ) 每 个 属性 对 应 一 个 较 小 的 编码 段 ; 
(2 ) 这 些 较 小 的 代码 段 以 同一 顺序 排列 成 大 的 代码 段 。 
在 实际 操作 过 程 中 , 可 以 采用 实 值 编码 , 假设 有 一 个 由 age、income .occupation ,iterm_bought 
组 成 的 事实 表 ( 其 中 age 属性 有 6 个 值 , income 有 10 个 值 、occupation 有 30 个 值 、iterm_bought 
有 25 个 值 )， 其 编码 的 范围 为 0000~6 10 39 25， 其 中 0 表示 这 个 属性 未 被 选择 。 


24.4.2” 亲 和 度 函 数 的 构造 


亲 和 度 函数 /是 评价 抗体 与 抗原 联系 的 量化 反映 , 它 的 选取 对 于 克隆 算法 具有 非常 重要 的 作用 。 
在 关联 规则 挖掘 中 , 支持 度 是 对 关联 规则 重要 性 的 衡量 , 它 说 明了 关联 规则 在 所 有 事物 中 的 
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代表 性 , 它 的 大 小 反映 了 关联 规则 在 实际 应 用 中 普遍 性 的 大 小 。 置 信 度 反映 了 由 相关 条 件 结论 的 
正确 率 ， 如 果 置 信 度 达 不 到 一 定 的 阔 值 ,那么 这 个 关联 规则 就 没有 意义 ， 所 以 ,选用 支持 度 作为 
筛选 条 件 ， 以 置信 度 作 为 亲 和 度 函数 ， 表 示 为 : 产 C， 其 中 ，C 为 置信 度 。 


24.4.3 ”算法 步骤 


(1 ) 随机 产生 每 一 属性 值 ， 以 概率 a 取 0 选取 此 属性 值 ， 以 概率 ( 1-0; ) 选择 其 他 属性 值 ， 
其 范围 为 从 1 到 此 属性 值 个 数 间 随 机 选择 的 一 个 整数 。 当 某 一 属性 对 应 的 选取 概率 w=0 时 ,此 
属性 必 存 在 于 所 挖掘 的 关联 规则 之 中 , 若 mw 不 为 0, 则 其 对 应 的 属性 不 一 定 存 在 于 所 挖掘 的 关联 
规则 之 中 。 所 以 ， 如 果 要 挖 据 出 包含 特定 属性 的 关联 规则 时 ， 由 应 将 此 属性 的 选取 概率 w 取 0， 
其 余 属性 的 概率 w 一 般 取 0.2 ~ 0.5。 循 环 选取 ， 个 初始 抗体 ， 这 些 抗体 中 各 个 属性 的 顺序 相同 ， 
且 应 保持 每 个 抗体 满足 支持 度 阔 值 条 件 。 由 此 形成 最 初 的 抗体 种 群 孔 D 。 

(2 ) 计算 出 每 一 抗体 的 g;， 对 抗体 种 群 进化 克隆 操作 Fe ,克隆 后 ， 种 群 变 为 
了 = 全 (二 (D…, 也 0D}。 











(3 ) 对 目前 种 群 过 (b 进行 克隆 变异 操作 也 (有 =TEC4 (A) ,以 概率 Pr 从 用 (有) 中 抽取 抗体 ， 


对 一 个 或 多 个 属性 进行 实 值 变异 , 使 其 以 一 定 概率 随机 变 为 其 他 属性 值 。 删 除 此 种 群 不 满足 支持 
度 条 件 的 抗体 。 


(4) 对 目前 种 群 邵 (A) 进行 克隆 交叉 操作 玫 (D = 歼 (4 (0D) ， 交 叉 时 使 用 离散 重组 法 则 ， 
删除 此 种 群 中 不 满足 支持 度 条 件 的 抗体 。 


(5 ) 对 目前 种 群 也 ( 昌 进 行 克隆 选择 操作 kt+D =Te(Cdz (0D) ,车 得 到 的 某 个 抗体 同时 满足 


最 小 支持 度 和 最 小 置信 度 条 件 ,， 则 输出 此 抗体 , 并 把 此 抗体 还 原 为 原始 属性 值 ， 再 保留 到 种 群 之 
中 。 如 果 和 迭代 次 数 满足 终止 条 件 , 则 算法 结束 ; 否则 , 把 此 种 群 作为 下 一 代 计 算 的 初始 抗体 种 群 ， 
转 到 步骤 (2 )。 


24.5 ”关联 规则 扩展 


24.5.1 多 层次 关联 规则 


根据 规则 中 数据 涉及 的 层次 关系 ,可 以 分 为 单 层次 和 多 层次 的 关联 规则 。 在 单 层 的 关联 规则 
中 , 没有 考虑 具体 的 数据 项 具有 多 个 不 同 层次 的 关系 ; 而 多 层次 的 关联 规则 对 数据 项 的 层次 关系 
进行 了 充分 考虑 ， 以 在 更 高 的 层次 发 现 强 关联 规 则 。 由 于 数据 存在 一 定 的 稀 朴 性 , 在 低层 或 原始 
层 的 数据 项 之 间 很 难 找到 强 关联 规则 , 而 在 较 高 的 概念 层 发 现 的 强 关联 规则 可 能 更 有 意义 。 因 此 ， 
多 层次 关联 规则 挖掘 可 以 在 不 同 抽象 层次 上 发 现 更 有 意义 的 规则 。 事务 集合 中 的 数据 项 之 间 存 在 
一 定 的 概念 层次 ， 例 如 ， 图 24.1 所 示 为 食品 的 概念 分 层 示意 图 ， 规 则 “蒙牛 酸奶 黄 面包 ”可 
能 不 满足 最 小 支持 度 要 求 ， 可 以 将 黄 面包 沿 概念 层次 往 上 提升 合并 到 面包 这 个 层次 , 规则 “蒙牛 
酸奶 =s 面包 ”可 能 就 是 强 关 联 规则 。 
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图 24.1 食品 的 简单 概念 分 层 图 
多 层次 关联 规则 分 析 算 法 还 是 基于 传统 的 经 典 算法 ,只 是 在 支持 度 的 设置 上 做 了 调整 ,通常 
用 两 种 途径 。 一 种 是 直接 对 事务 数据 库 应 用 单 层次 关联 规则 挖掘 算法 , 算法 将 在 多 层次 的 数据 项 
中 采用 相同 的 支持 度 。 这 种 方法 会 出 现 两 种 较为 极端 的 结果 : 支持 度 太 高 会 丢失 低层 次 有 意义 的 
关联 规则 , 支持 度 太 低 会 产生 太 多 高 层次 的 无 意义 的 关联 规则 。 另 一 种 方法 是 根据 自 上 而 下 的 思 
想 ， 先 找到 高 层次 的 “ 强 ” 关 联 规则 ,再 发 现 低层 次 的 “ 弱 ” 关 联 规则 ,算法 需要 采用 随 着 层次 
的 降低 支持 度 递 碱 的 策略 。 


24.5.2 ”多 维度 关联 规则 


根据 规则 中 数据 项 涉及 的 维度 ,可 以 分 为 单 维度 和 多 维度 的 关联 规则 。 单 维度 关联 规则 只 涉 
及 数据 的 一 个 维 ， 比 如 “啤酒 尿布 ”这 条 规则 只 涉及 用 户 购买 的 物品 ; 多 维度 关联 规则 涉及 
数据 的 多 个 维度 ， 比 如 “年 龄 = 19”and“ 职 业 = “学 生 ”” 之 “会 买 手机 "， 这 条 规则 就 涉及 了 
3 个 维度 的 信息 ， 是 3 个 维度 上 的 关联 规则 。 对 于 多 维 数据 库 或 数据 仓库 而 言 ， 实 际 挖掘 的 都 是 
多 维度 关联 规则 。 

多 维度 关联 规则 的 挖掘 关键 在 于 搜索 频繁 项 大 维 词 集合 ， 比 如 {“ 年 龄 ",“ 职 业 ”,“ 是 否 会 
买 手机 ”} 是 一 个 3- 维 词 集 合 。 搜 索 前 ， 需 要 对 不 同类 型 的 属性 进行 处 理 。 对 于 数值 属性 ， 可 以 
用 预定 义 的 概念 层次 或 其 他 静态 方法 进行 离散 化 , 也 可 以 根据 数据 分 布 对 数值 属性 分 箱 来 达到 动 
态 的 离散 化 ， 还 可 以 利用 数据 点 之 间 的 距离 实现 动态 的 离散 化 。 比 如 “年 龄 ”数值 属性 离散 化 ， 
划分 到 哪个 年 龄 之 间 ， 属 于 哪个 年 龄 阶段 等 。 在 多 维 数据 库 中 搜索 频繁 项 大 维 词 集合 ， 需 要 丰 或 
夺 1 次 表 扫 描 ， 使 用 数据 立方 体 可 以 实现 更 快 的 搜索 。 


24.5.3 ”定量 关联 规则 


与 布尔 型 关联 规则 处 理 离散 化 的 属性 不 同 , 定量 关联 规则 挖掘 是 从 包含 连续 属性 的 数据 集中 
挖 握 关 联 规则 。 为 了 得 到 定量 关联 规则 ， 需 要 对 连续 属性 进行 离散 化 ， 从 而 将 问题 转化 为 布尔 关 
联 规 则 挖掘 。 定 量 关联 规则 是 多 维 关联 规则 的 一 种 ， 可 以 称 为 带 数值 的 关联 规则 。 因 此 需要 对 展 
中 的 数值 属性 离散 化 , 将 其 转化 为 布尔 型 关联 规则 。 根 据 实际 数据 的 特点 , 将 每 个 属性 值 映 射 为 
一 个 布尔 型 属性 ， 可 以 采用 等 宽 分 箱 ( 每 个 箱 的 区 间 长 度 相同 )、 等 深 分 箱 ( 每 个 箱 赋予 大 致 相 
同 个 数 的 元 组 )、 基 于 同 质 的 分 箱 ( 箱 的 大 小 应 使 得 每 个 箱 的 元 组 一 致 分 布 ) 等 分 箱 技术 ， 来 实 
现 对 数值 属性 的 离散 化 。 


























533 


日 实战 大 数据 一 一 MATLAB 数据 挖掘 详解 与 实践 


534 


24.5.4 ”基于 约束 的 关联 规则 

基于 约束 的 挖掘 方式 以 用 户 为 驱动 , 此 时 用 户 应 具有 较 好 的 规则 判断 能 力 , 知道 什么 形式 的 
规则 对 他 们 有 价值 。 一 种 更 有 效 产生 关联 规则 的 方法 是 让 用 户 说 明 他 们 的 直觉 或 期 望 作为 限制 搜 
索 空间 的 约束 条 件 。 这 些 约束 包括 如 下 几 种 。 

(1 ) 知识 类 型 约束 : 指定 要 挖掘 的 知识 类 型 ， 如 关联 规则 或 相关 规则 。 

(2 ) 数据 约束 : 指定 任务 相关 的 数据 集 。 

(3 ) 维 层 约束 : 指定 所 用 的 数据 ， 或 概念 分 层 结构 的 层次 。 

(4 ) 兴趣 度 约束 : 指定 规则 兴趣 度 统计 度量 阔 值 ， 如 支持 度 、 置 信 度 或 其 他 评估 度量 。 

(5 ) 规则 约束 : 指定 要 挖掘 的 规则 形式 。 这 种 规则 可 以 用 规则 模板 表示 。 


24.6 ”例题 


例 4.66 考查 表 24.1 所 列 的 模拟 购物 事务 数据 库 , 每 一 条 数据 由 事务 的 发 生 时 间 、 购 买 客 
户 的 D 以 及 购买 的 项 目 ID 组 成 。 试 求 其 中 的 关联 规则 。 
表 24.1 事务 数据 库 


站 | 六 ED | 8 


004 30 
10,20 07-06-25 003 30,50,70 
001 30 


07 一 06 一 30 001 90 
07 一 06 一 12 005 90 
004 40,70 
30 


07 一 06 一 10 002 


| | 
解 : 
对 于 这 类 问题 可 以 用 AprioriAll 算法 解决 。 此 算法 是 Apriori 算法 的 扩展 ， 它 首先 将 时 间作 
为 标识 的 事务 数据 库 转 换 为 以 顾客 作为 标识 的 序列 数据 库 SD， 每 一 顾客 唯一 对 应 一 个 项 目 集 表 
示 的 序列 模式 ， 然 后 利用 Apriori 算法 对 所 生成 的 序列 数据 库 求 其 关联 规则 。 
根据 以 上 原理 ， 可 编程 计算 如 下 。 
td le i WY Rd bel ts A dd Dh Ua i A UO 十 王 人 机 玫 人 总， 




















I I CIE TAO OTe Oy 
sup min=0.2; conf min=0.5; 
>> [yl,y2]=aprioriall (x,sup min,0.5); 
3 Yl conf=1" s 关 联 规则 
"141 conf=0.66667 
"1-5 conf=0.66667" 


"1-4 conf=0.66667" 
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>>72=730" AO 7 70779010 11x2 celll 11x2 ceLll}l sg 规则 中 各 数字 的 意义 
VN 
y2{6}={"'30' '70'} 


例 4.67 在 进行 股票 投资 中 , 投资 者 希望 看 到 的 是 某 几 只 股票 间 的 联动 关系 以 及 可 能 性 。 较 
常见 的 有 2、3、4 支 股票 间 的 联动 上 涨 或 下 跌 ， 在 这 种 情况 下 ， 可 将 其 转换 为 关联 规则 :“ 上 股票 
A 在 Ts 时 间 上 涨 目 股票 B 在 Ts 时 间 上 涨 , 则 股票 C 在 Te 时 间 上 涨 ,支持 度 是 Xo%, 置 信 度 是 7Y96”。 
下 面 对 表 24.2 中 的 数据 进行 关联 分 析 。 表 中 的 1 表示 “ 涨 ", 0 表示 “ 跌 ”, Ti; 为 某 一 连续 时 间 段 ， 




















五 为 表示 某 一 股票 。 最 小 支持 度 为 0.5， 最 小 可 信和 度 为 0.7。 
表 24.2 某 时 间 段 内 股票 涨 跌 情况 





解 : 
在 进行 这 类 关联 规则 挖 据 中 ,最 常见 的 求 3 支 股票 间 的 关系 ,所 以 最 大 项 为 3 一 频繁 项 ， 挖 
掘 规则 为 : A(D+B(2)->C(4)， 即 B 股票 与 A 股票 相差 1 天 ，2 -频繁 项 A、B 与 C 股票 相差 4 天 
时 。 据 此 ， 可 以 编程 计算 如 下 。 
SP OO OO 
sup=0.5;conf min=0.7; 
>> y=bitsearch (x, sup,conf min); 

y=1.0000 2.0000 3.0000 0.5774 1.0000 

3.0000 2.0000 1.0000 有 6325 1.0000 

挖掘 出 两 条 规则 ， 即 : 

(1) 第 1 天 Il 股票 上 升 , 第 2 天 了 2 股票 上 升 ,第 4 天 B 股票 上 升 ， 支 持 度 为 0.5774， 置 
信 度 为 1.0。 

(2) 第 1 天 HB 股票 上 升 ,第 2 天 了 股票 上 升 ,第 4 天 Il 股票 上 升 ， 支 持 度 为 0.6325， 置 
信 度 为 1.0。 

例 4.68 不 同 于 Apriori 等 算法 的 “产生 一 测试 ”模型 ， 深 度 优先 法 不 产生 频繁 项 集 ， 而 是 
采用 模式 增长 的 方式 产生 关联 规则 。 深度 优先 法 典型 代表 是 FP-growth 算法 , 该 算法 使 用 一 种 FP 
树 的 紧凑 数据 结构 数据 ,经 过 一 次 扫描 后 , 将 数据 库 中 的 事务 压缩 到 一 棵 频繁 模式 树 中 , 采用 分 
而 治之 的 策略 ， 对 频繁 模式 树 进行 处 理 ， 其 主要 通过 减少 IO 次数 来 提高 效率 。 但 FP-growth 算 
法 仍 存在 着 一 些 影响 其 挖掘 效率 的 重要 因素 : 首先 在 挖掘 频繁 模式 时 ， 需 要 递归 的 生成 条 件 模式 
基 和 条 件 模式 树 ; 其 次 ,在 频繁 模式 挖掘 过 程 中 ， 需 要 动态 生成 、 销 毁 大 量 的 条 件 模式 树 ， 这 将 
消耗 大 量 的 时 间 和 空间 。 

为 了 改进 FP-tree 数据 结构 ， 可 以 采用 单 向 链表 的 结构 来 储存 节点 信息 ， 该 链表 按照 项 目的 
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支持 度 降序 来 排列 。 通 过 遍历 各 个 节点 的 单 向 链 可 以 得 到 相应 的 频繁 模式 树 , 该 算法 也 只 需 扫 描 
两 次 事务 数据 库 ， 同 时 避免 产生 大 量 的 条 件 模式 树 ， 从 而 节省 了 时 间 和 空间 ， 提 高 了 效率 。 
利用 此 法 对 表 24.3 中 的 数据 进行 关联 规则 分 析 ， 其 最 小 支持 数 为 2。 


目 





因 


解 : 





表 24.3 事务 数据 库 D 








TID lterm 
1 a,c,d 
2 b,ce 
3 ab,ce 
4 b,e 








表 24.3 事务 数据 集 TDB 中 的 每 条 事务 的 项 目 集 实际 上 是 顺序 扫描 时 逐条 产生 的 ， 每 产生 一 
条 项 目 集 , 便 作为 路 径 递归 分 制 插入 到 链表 中 。 例 如 插入 <b,c,e>， 先 将 b 看 作 项 目 头 节点 , 其 后 
插入 < ce>, 再 把 c 看 作 项 目 头 节点 , 其 后 插入 <e>, 因为 原先 c 后 已 经 有 <a> 了 , 此 时 要 插入 <e>， 
因为 在 项 头 表 中 e 在 a 的 前 面 ， 所 以 将 <e> 插 在 <a> 的 前 面 。 对 于 本 例 最 终 的 邻接 表 为 图 24.2 所 
示 的 结构 。 从 邻接 表 可 以 方便 地 得 出 各 项 集 频繁 项 。 对 于 每 一 个 以 项 头 表 中 的 一 个 节点 为 头 节点 
的 各 单 链表 求 频繁 项 目 集 时 ,是 必须 包含 项 头 表 中 的 这 个 节点 的 各 支持 度 不 小 于 2 的 所 有 节点 的 排 
列 组 合 ， 其 组 合 后 的 支持 度 为 其 中 最 小 的 支持 度 。 例 如 对 于 节点 b 而 言 ， 其 组 合 <bce >、< bc >、 
< be > 均 为 频繁 项 。 对 于 各 频繁 项 再 进行 支持 度 的 判断 ， 便 可 以 最 终 求 出 最 大 频繁 项 。 











图 24.4 邻接 表 结 构 


根据 此 算法 的 原理 ， 便 可 以 编程 进行 计算 。 


>> x={{'aly cr, di}i{' b,c', ery;{'al, brcre'ifby el; 


>>sup=2; 


>> y=nearjoin (x, sup); 


Ve 


c' 'b' 'e' $ 最 大 频繁 项 集 


例 4.69 目前， 关联 规则 挖掘 算法 一 般 是 指 Apriori 算法 或 其 改进 算法 ， 其 挖掘 过 程 主要 包 
含 两 个 阶段 : 第 一 阶段 必须 先 从 数据 集合 中 找 出 所 有 支持 度 大 于 用 户 最 小 支持 度 的 项 集 的 频繁 项 


集 ; 第 二 | 


阶段 由 这 些 频 繁 项 目 集 构造 可 信 度 大 于 用 户 最 小 可 信 度 的 关联 规则 。 它 实际 上 是 一 个 


全 局 搜索 过 程 。 遗 传 算法 是 一 种 全 局 优化 算法 ， 它 可 以 有 效 地 避免 搜索 过 程 的 局 部 最 优 解 问题 ， 


此 ， 将 遗传 算法 用 于 关联 规则 的 发 现 和 提取 有 利于 找到 有 价值 的 规则 。 








试 利 





遗传 算法 对 表 24.4 的 数据 进行 关联 规则 挖掘 ， 其 中 最 小 支持 度数 为 2。 
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表 24.4 事务 数据 库 D 














TID lterm 

1 lis RB 
人 2 I2, 14 

3 I2, IB3 

4 Tel 
5 I B 

6 生地 

x | 

8 lt, 2, B, BS 
9 Il, 2， 了 





解 : 

遗传 算法 中 各 参 应 根据 实际 情况 设置 。 对 于 本 例 ， 参 数 设置 如 下 : 

编码 方式 : 采用 二 进 制 编码 ，1 代 表 该 项 出 现 ，0 为 不 出 现 。 例 如 编码 [01100] 表示 该 项 集 为 
讼 5 

编码 长 度 : 因为 事务 数据 库 中 的 项 数 为 5， 根 据 出 现 顺序 其 排列 为 I1、I2、I5、I4、I3， 所 以 
设 定编 码 的 长 度 为 5。 

交叉 率 P.: 0.85 

变异 率 Pm: 0.01 

种 群 大 小 : 50 

迭代 次 数 : 20 

适应 度 函 数 : 7o-| 


ee ep 其 中 M 为 数据 库 的 项 数 ， 在 这 里 为 5。 
根据 以 上 参数 ， 首 先 编写 适应 度 函 数 如 下 。 
function 
y=rule galz) otantl EE 2 
TE LT 
Ee 半生 
sup=2;num=size (data, 1); 
[iterm, supcount]=myiterm (data); S% 求 项 数 及 对 应 的 支持 度数 
a=length (iterm) ;y=zeros (num, a); 
for 1i=1:num 
for j=1:a 
[yl,y2]=mycomparel (iterm, data{i, :}); 
if ~isempty (y1) 
NA 表示 某 项 数 在 事务 中 是 否 出 现 的 矩阵 
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Ebel) 6. 计算 支持 度 
if length(a2)>=sup; y=-length (find(x));else; y=a;end 


据 此 , 便 可 利用 优化 工具 OPTIMTOOL( 或 GATOOL )GUI 计 算 , 在 solve 框 中 选择 ga-Genetic 
Algorithm, 在 fitness Function 框 中 输入 @ rmule_ga, 在 Number of variables 框 中 输入 5, 在 Population 
type 框 中 选择 bit string， 在 Population size 选 择 Specify 并 输入 “50”， 在 Crossover fraction 选 择 
Specify 并 输入 0.855， 在 Mutation 框 中 ，rate 选 择 Specify 并 输入 “0.01”， 其 余 选 择 默 认 值 ， 最 后 
运行 ga。 

经 过 多 次 运算 ， 可 以 得 到 两 个 最 长 频繁 项 : I1、I2、15 与 11、I12、13。 
例 4.70 遗传 算法 在 关联 规则 挖掘 中 的 另外 一 种 应 用 方式 是 直接 将 关联 规则 作为 个 体 , 利用 
遗传 算法 对 其 进行 优化 。 

某 商 场 为 了 更 好 地 营销 某 品牌 商品 ， 最 近 做 了 问卷 调查 ， 主 要 了 解 该 商品 的 价格 (分 高 、 
中 和 低 )、 质 量 (分 优 、 一 般 和 差 )、 售 后 服务 ( 分 好 和 差 ) 和 满意 程度 (分 非常 满意 、 满 意 、 接 
受 和 不 接受 ) 等 情况 。 试 用 遗传 算法 对 问卷 情况 进行 分 析 。 

解 : 
根据 情况 ， 将 规则 作为 个 体 进行 优化 ， 以 挖掘 出 符合 条 件 的 规则 集 。 为 此 将 规则 进行 编码 。 
一 条 规则 用 4 个 实 整数 表示 ， 其 中 价格 用 1、2 和 3 分 别 代表 高 、 中 和 低 ， 质 量 用 1、2 和 3 分 别 代表 
优 、 一 般 和 差 ， 用 1 和 2 分 别 代表 售后 服务 的 好 和 差 , 用 1、2、3 和 4 分 别 代表 满足 程度 的 4 种 情况 。 
因此 规则 1324 表 示 如 果 该 商品 价格 高 、 质 量 差 、 服 务 差 ， 则 顾客 不 会 接受 。 

因为 本 例 只 是 作为 一 个 实例 说 明 遗 传 算法 在 关联 规则 挖掘 中 的 应 用 , 所 以 模拟 产生 问卷 , 所 
随机 产生 的 答案 即 规则 不 一 定 符合 实际 情况 。 

各 参数 设置 如 下 : 

编码 方式 : 实 整数 

交叉 率 P.: 0.85 

变异 率 Pu: 0.05 

种 群 大 小 : 30 

迭代 次 数 : 100 

最 小 支持 度 : 0.1 

最 小 置信 度 : 0.7 

适应 度 函 数 : f(x) =axSup+bxConfid+cxCover ， 其 中 Sup 为 规则 的 支持 度 、Confid 为 规 
则 的 置信 度 、Cover 为 规则 的 覆盖 度 ，a、b 和 为 三 个 [0、1] 间 的 常数 。 

据 此 ， 便 可 以 编程 进行 计算 (也 可 以 利用 遗传 算法 的 GUI 计算 ) 。 














>>rand('state',1); 保持 随机 数 一 致 
x=[myrandn (800,1,3,'i') myrandn (800,1,3,'i') myrandn (800,1,2,"'i') 
myrandn (800,1,4,'i1')]; s 数 据 库 
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x=repeat set (x); g% 去 掉 数 据 库 中 矛盾 的 规则 
m=30;pc=0.85;pm=0.05;t=100;vara bound=[3 3 2 4];sup=0.1;conf=0.7;a=1;b=1;c=1; 
>> pop best=asso rules gal(x,sup,conf,m,t,pc,pm,vara bound,a,b,c); 

计算 所 得 规则 如 下 : 

规则 1 

EGR 


confid: 1 $ 置 信和 度 
IEE2- 000034 s# 提 升 度 (兴趣 度 ) 
cover: 0.3741 % 覆 盖 度 
FE T1374 $ 适 应 度 
sup: 110 支持 度数 
规则 2 


Fulles [2 ZI 
confid: 1 

lift: 0.0048 
cover: 0.5646 

fit: 119.5646 


sups 118 


例 4.71 在 实际 中 会 经 常 遇 到 类 似 例 4.70 的 多 值 属性 关联 规则 的 挖 握 。 多 值 属性 根据 属性 
性 质 可 分 为 数值 和 类 别 属性 ,前 者 可 以 转化 成 类 别 属 性 。 多 值 属 性 关联 规则 的 挖掘 更 为 复杂 。 在 
es 要 对 多 值 属 性 ( 数值 属性 ) 进行 合理 的 划分 ， 如 何 合 理 、 有 效 地 划分 属性 区 间 , 使 
能够 真实 地 反映 此 属性 中 数据 在 定义 域 中 的 实际 分 布 则 是 挖掘 多 值 属性 关联 规则 的 关键 问题 。 
在 完成 属性 划分 后 ,有 两 种 方法 可 以 实现 对 多 值 属性 关联 规则 的 挖掘 。 多 数 文献 主张 将 多 值 
关联 规则 问题 转化 为 布尔 型 关联 规则 问题 ,这 需要 将 多 值 数 据 转化 为 布尔 型 数据 , 但 由 此 引出 了 
一 系列 新 的 问题 , 比如 布尔 型 关联 规则 中 定义 的 支持 度 和 关联 度 概念 在 多 值 属性 关联 规则 中 是 否 
适用 ; 将 多 值 数 据 转 化 为 布尔 型 数据 后 增加 了 大 量 的 存储 空间 等 ; 另 一 种 方法 则 借助 其 他 数学 工 
具 实 现 。 
试 利用 第 一 种 方法 对 表 24.5 所 示 的 天 气 数据 进行 关联 规则 挖掘。 
例 24.5 天 气 样本 数据 








Overcast 











Overcast 





Overcast i Medium | 





Sunny i Not 





Sunny Medium 


Zim|I~|Iz|IzZIz 
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续 表 
ET CT TT TT [WO | 交 列 
8 Rain Hot Nornal Not P 
Ey Rain Cool Nornal Medium N 
10 Rain Hot Nornal Very N 
11 Sunny Cool Nornal Very 
12 Sunny Cool Nornal Medium P 
14 Overcast High Medium N 
15 Overcast Nornal Not P 
16 Overcast Nornal Medium 好 
19 Nornal Medium P 
20 Nornal Very P 


解 : 

首先 对 表 中 的 数据 进行 离散 化 ， 即 对 属性 进行 分 类 ， 每 个 属性 有 L 种 取 值 ， 则 编码 长 度 L。 
例如 “Outlook” 有 三 种 状态 ， 则 第 一 种 状态 用 100、 第 二 种 状态 有 010， 第 三 种 状态 用 001 表 示 ， 
以 此 类 推 ,这样 就 可 以 将 数据 转化 为 0、1 和 矩阵 。 然 后 对 此 矩阵 进行 运算 就 可 以 求 出 各 种 状态 的 支 
持 度 ， 进 而 求 出 规则 。 

根据 此 原理 ， 可 编程 计算 如 下 。 


>> x={'overcast' "hot' 'high' "not' 'N';'overcast' "hot' "high' "very' 'N'; 





"overcast" hot "high edion "N";"sunny’ "hot’ Pioho aa trp? 
"sunny' "hot' "high' "medium’ "P';'rain’ "mild' "high’ "not' 'N'; 
"rain' "mild' ‘high' "medium' 'N';'rain’' "hot' 'normal' "not' 'P'; 
"rain' "cool' "normal' 'medium' 'N'7 rain' 'hot' 'normal' "Very' 'N'; 
"sunny' "cool' 'normal' 'Very' 'P';'sunny' 'cool' 'normal' 'medium' 'P' 
"overcast' "mild' 'high' "not' 'NI7 overcast' "mild' 'high' "medium' 'N'; 
"overcast' 'cool' 'normal' "not' 'P';"'overcast' "cool' 'normal' "medium' 'P'; 
"rain' "mild' "normal' "not' 'N';'rain’' "mild' "normal' "medium' 'N'; 
"overcast' 'mild' 'normal' "medium' 'P'7 "overcast' 'mild' 'normal' 'very' 'P'; 


"sunny' "mild' "high' "very' '"P'sunny' "mild' 'high' "medium' 'P'; 
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续 表 
ET CT TT TT [WO | 交 列 
8 Rain Hot Nornal Not P 
Ey Rain Cool Nornal Medium N 
10 Rain Hot Nornal Very N 
11 Sunny Cool Nornal Very 
12 Sunny Cool Nornal Medium P 
14 Overcast High Medium N 
15 Overcast Nornal Not P 
16 Overcast Nornal Medium 好 
19 Nornal Medium P 
20 Nornal Very P 


解 : 

首先 对 表 中 的 数据 进行 离散 化 ， 即 对 属性 进行 分 类 ， 每 个 属性 有 L 种 取 值 ， 则 编码 长 度 L。 
例如 “Outlook” 有 三 种 状态 ， 则 第 一 种 状态 用 100、 第 二 种 状态 有 010， 第 三 种 状态 用 001 表 示 ， 
以 此 类 推 ,这样 就 可 以 将 数据 转化 为 0、1 和 矩阵 。 然 后 对 此 矩阵 进行 运算 就 可 以 求 出 各 种 状态 的 支 
持 度 ， 进 而 求 出 规则 。 

根据 此 原理 ， 可 编程 计算 如 下 。 


>> x={'overcast' "hot' 'high' "not' 'N';'overcast' "hot' "high' "very' 'N'; 





"overcast" hot "high edion "N";"sunny’ "hot’ Pioho aa trp? 
"sunny' "hot' "high' "medium’ "P';'rain’ "mild' "high’ "not' 'N'; 
"rain' "mild' ‘high' "medium' 'N';'rain’' "hot' 'normal' "not' 'P'; 
"rain' "cool' "normal' 'medium' 'N'7 rain' 'hot' 'normal' "Very' 'N'; 
"sunny' "cool' 'normal' 'Very' 'P';'sunny' 'cool' 'normal' 'medium' 'P' 
"overcast' "mild' 'high' "not' 'NI7 overcast' "mild' 'high' "medium' 'N'; 
"overcast' 'cool' 'normal' "not' 'P';"'overcast' "cool' 'normal' "medium' 'P'; 
"rain' "mild' "normal' "not' 'N';'rain’' "mild' "normal' "medium' 'N'; 
"overcast' 'mild' 'normal' "medium' 'P'7 "overcast' 'mild' 'normal' 'very' 'P'; 


"sunny' "mild' "high' "very' '"P'sunny' "mild' 'high' "medium' 'P'; 
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"sunny' hot’ "normal' "not"” "Pp';'"'rain’ "mild' "high' "Very' 'N'}; 
>>sup=0.2;conf=0.6; $ 最 小 支持 度 和 最 小 置信 度 
>>[rule,L max,L iter]=mulit rule(x,sup,conf); s 求 多 重 属 性 关联 规则 的 函数 

其 中 rule 为 符合 条 件 的 规则 ，L_max 为 最 大 频繁 项 长 度 ，L_iter 为 各 项 ，L_iter1 第 1 行为 属性 ， 
第 二 行为 对 应 属性 的 取 值 。 

例 : rule{1} 

'152 5; 支持 度 =5; 置信 度 =0. 625" 

'1 2-5; 支持 度 =5; ”置信 度 =1' 

"1 5,2; 支持 度 =5; ”置信 和 度 =0.71429' 

'2 5o1; 支持 度 =5; 置信 度 =0.71429" 











L max=3; 
L iter{1}= 'rain’' 'mild' 'N' $ 最 大 频繁 项 中 的 一 个 
>> L iterl{1}=1 吧 本 $ 属 性 


2 3 1 s 属 性 对 应 的 取 值 

例 4.72” 聚 类 和 关联 规则 是 数据 挖掘 研究 的 重要 内 容 。 聚 类 和 关联 规则 挖掘 的 目的 在 于 通过 
分 析 大 量 数据 ， 从 中 找 出 人 们 未 知 的 却 又 具有 潜在 使 用 价值 的 规则 。 

在 对 大 型 数据 库 进 行 关联 规则 挖掘 时 ， 为 了 减少 运行 时 间 ， 可 以 先 通过 聚 类 方法 分 析 数 据 
集 ， 而 后 通过 关联 分 析 来 对 每 一 个 聚 类 篮 ( 具有 相似 特性 的 数据 集 ) 的 一 些 特征 进行 分 析 ， 找 出 
每 一 类 所 具有 的 共同 特征 或 规则 。 

为 了 更 好 地 提高 教学 效果 ， 对 以 往 学 生 的 “计算 机 基础 ”课程 成 绩 进行 分 析 ， 找 出 影响 该 
课程 成 绩 的 关键 因素 ， 进 而 采取 适当 的 措施 以 提高 课程 的 教学 质量 。 

因 篇 幅 关 系 , 在 表 24.6 中 只 列 出 模拟 的 200 位 学 生 中 10 位 学 生 的 “计算 机 基础 "综合 成 绩 。 




















该 课程 由 基础 知识 、 基 本 操作 、office 操作 和 网 络 使 用 4 个 模块 组 成 ， 而 基础 知识 又 有 单 选 题 、 
判断 题 、 多 选 题 3 种 题 型 ， 基本 操作 有 汉字 输入 、Windows 操作 2 种 题 型 ，Office 操作 有 Word 
操作 、PPT 操作 和 Excel 操作 3 种 题 型 ; 网 络 使 用 有 信息 浏览 题 、E-mail 操作 题 2 种 题 型 。 成 绩 
已 作 规范 化 处 理 。 
表 24.6 计算 机 基础 课程 成 绩 
全 次 基础 知识 基本 操作 Office 操作 网 络 操作 
课程 信息 
理科 0.9730 0.9748 0.1217 0.6862 
理科 0.1892 0.6513 0.8842 0.8936 
文科 0.6671 0.2312 0.0943 0.0548 
文科 0.5864 0.4035 0.9300 0.3037 
之 0.6751 0.1220 0.3990 0.0462 
理科 0.3610 0.2684 0.0474 0.1955 
理科 0.6203 0.2578 0.3424 0.7202 
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0.8112 0.3317 0.7360 


0.0193 


0.7218 









0.8778 





0.0839 0.5824 


解 : 
首先 利用 kmeans 方 法 分 别 对 4 个 模块 及 10 个 课程 属性 进行 分 类 ， 然 后 再 对 分 类 后 的 每 一 类 学 
生 进 行 关联 规则 分 析 ， 以 获得 各 类 学 生 的 特点 。 








分 类 时 考虑 到 学 生成 绩 的 分 布 ， 将 其 分 为 优秀 、 良 好 、 中 等 、 不 及 格 与 差 5 类 ; 而 每 个 题 型 
分 为 优 、 良 与 差 3 个 等 级 。 
>> mydata=[myrandn (100,1, [1 4],'i') myrandn(100,4, [0 1],'a')]; 


$ 产 生 模拟 数据 库 

>> [a,b]=kmeans (mydata(:,2:end),5); sg 分 成 5 类 
>> al=mydata (find (a==1),1); $ 第 1 类 的 学 生 
>> length (find (al==1)); $ 第 1 类 学 生 中 理科 生 的 数目 
ans =8 
>> length (find (al==2)) $ 第 1 类 学 生 中 文科 生 的 数目 
ans =7 
>> length (find (al==3)) $ 第 1 类 学 生 中 艺术 生 的 数目 
ans =7 
>> length (find(al==4)) $ 第 1 类 学 生 中 体育 生 的 数目 

ans =3 


可 以 看 出 ， 体 育 生 占 第 1 类 的 比例 较 少 。 对 于 其 他 类 的 学 生 可 以 作 类 似 的 分 析 ， 并 且 根据 支 
持 度 及 置信 度 寻 找 出 关联 规则 。 

然后 对 每 个 题 型 作 关联 规则 分 析 : 

>> mydatal=[myrandn (100,10, [1 3],'i')]; s 模 拟 产生 数据 库 ， 其 格式 如 下 

>> mydatal (1:6,:) 











全 六 
ZTE 
S13 
S00 3 0200 3 2 > 
22 2 
> 

同样 对 这 个 数据 集中 的 第 1 类 数据 进行 关联 规则 分 析 ， 它 是 一 个 多 值 属 性 矩阵 ， 可 以 利用 例 
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4.52 中 的 函数 进行 分 析 : 

>> a2=mydatal (find (a=—1), :); gs 第 1 类 的 数据 集 

>> [rule,L max,L iter,L iterl]=mulit rule (a2,0.3,0.7); s% 限 于 篇 幅 , 结果 不 再 列 出 

例 4.73 经典 的 Apriori 方法 在 挖掘 项 目 数 较 多 的 大 型 数据 库 会 遇 到 效率 较 低 的 问题 。 可 以 
用 多 种 方法 解决 这 个 问题 , 其 中 一 个 方法 是 对 大 型 数据 库 先进 行 分 类 , 然后 再 对 每 个 类 进行 关联 
规则 分 析 。 

聚 类 的 方法 有 多 种 , 主要 是 利用 项 的 距离 及 其 他 特点 进行 。 试 利用 相应 的 聚 类 方式 对 表 24.7 

的 数据 进行 关联 规则 分 析 。 





表 24.7 事务 数据 库 
事务 项 目 
01 Il 2 "5 
02 I2" 4 
03 12 3 
04 I 12 4 
05 1h 3 
06 DB， 
07 Il 3' 
08 Il DB 5 
09 Il 12 3 
解 : 
先 根据 项 出 现 的 频率 对 项 目 进行 排序 , 然后 根据 每 个 事务 的 第 一 个 项 目 名 称 进行 分 类 , 然后 











1 对 每 个 类 进行 关联 规则 分 析 。 
事实 上 根据 此 法 分 类 后 ,每 个 类 即 为 一 棵 Fp-tree 树 ， 这 样 可 以 利用 相应 的 Fp-tree 算 法 对 每 个 

类 进行 关联 规则 分 析 ， 当 然 也 可 以 用 传统 的 关联 规则 挖掘 算法 进行 分 析 。 

要 注意 的 是 ， 无 论 是 利用 基于 项 的 距离 还 是 本 方法 的 分 类 方法 都 应 考虑 以 下 问题 。 

(1 ) 不 能 遗漏 关联 规则 。 有 可 能 某 些 项 在 每 个 类 中 都 不 符合 支持 度 要 求 ， 但 在 整个 数据 库 
中 符合 支持 度 要 求 。 但 在 计算 最 大 频繁 项 时 不 会 出 现 此 类 情况 。 

(2 ) 要 注意 支持 度 的 计算 。 某 些 项 在 不 同类 都 会 出 现 ， 或 者 某 些 项 在 某 个 类 中 是 频繁 项 ， 
但 在 另外 一 个 类 中 并 不 是 频繁 项 ， 所 以 在 计算 相应 频繁 项 的 支持 度 时 要 考虑 这 种 情况 的 处 理 。 
根据 以 上 方法 的 原理 ， 便 可 以 编程 进行 相应 的 计算 : 


SR TL TT 王 生 区 于 大 和 王 有 人 下 开 有 人 下 三 才 开 六 革 坟 沁 工 康 史 和 








TT TT 
re 
>>sup=0.2; 


>> y=cluster rule(x,sup); $$ 计 算 函 数 ， 省 略 规则 置信 度 的 计算 
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>> y=iter: {{5x3 cell} {1x4 cell} {0x5 cell}} gs 各 个 频繁 项 及 对 应 的 支持 度数 


SET TS To s 整 个 数据 库 符 合 支持 度数 要 求 的 项 
sup: [76622] $$ 各 个 项 对 应 的 支持 度数 
Te 2 $ 最 大 频繁 项 及 对 应 的 支持 度数 


例 4.74 在 进行 关联 规则 挖掘 时 , 通常 会 产生 成 百 上 干 或 成 干 上 万 条 关联 规则 , 要 从 如 此 庞 
大 的 数量 中 去 发 现 感 兴趣 的 规划， 用 户 通常 需要 浏览 全 部 的 结果 ， 这 显然 不 是 一 件 容易 的 事情 。 
此 时 可 以 对 关联 规则 进行 分 类 ， 删 除 元 余 规 则 ， 找 出 可 能 感 兴趣 的 规则 。 

试 对 例 4.73 所 形成 的 规则 进行 分 类 分 析 。 





解 : 

在 进行 分 类 分 析 时 , 首先 要 确定 规则 间距 离 的 计算 方法 。 规则 间距 离 根 据 各 规则 中 项 集 间距 
离 而 来 。 

两 个 项 间 的 距离 可 以 用 下 式 计 算 


suD) 


4 a uD) 


式 中 : s 为 各 项 的 支持 度 。 如 果 是 多 个 项 则 是 它们 的 平均 距离 。 

而 规则 的 距离 则 可 以 用 下 式 计算 

d(n,n)=axdX UE, TX UE)+BxdX,X)+yxqd(h,E) 
a+B+r=1 

式 的 第 一 项 为 两 个 规则 前 、 后 件 的 并 集 间 的 距离 ， 第 二 项 为 规则 前 件 间 的 距离 ， 第 三 项 为 规则 后 
件 间 的 距离 。a、p 和 和 y 为 用 户 自己 设 定 的 三 个 常数 ， 其 值 越 大 ,说 明 此 部 分 在 距离 中 的 权重 越 大 ， 
所 以 如 果 用 户 关心 的 是 规则 前 件 的 相关 性 ， 则 可 设 定 较 大 的 B 值 。 

根据 以 上 的 计算 方法 ， 便 可 以 编程 对 规则 进行 聚 类 分 析 : 


区 





ee A 全 区 交合 交 于 二 从 了 人 六 生生 信和 友和 证 全 和 人 
和 
>>sup=0.2;conf=0.5; 
>> [wl,rule, data, iterm, sup]=myapriori (x, sup, conf); $ 求 规则 函数 
>> [hl,h2]=claasify rule(rule,data, sup); sg 规则 分 类 函数 , 见 图 24 .1 所 示 
从 图 中 聚 类 树 可 明显 看 出 ,规则 的 分 类 情况 , 可 以 视 实际 情况 将 零 时 规则 分 成 不 同 数目 的 类 。 


从 函数 中 还 可 以 得 到 项 集 的 分 类 情况 ， 所 以 此 函数 还 可 以 用 于 项 集 较 多 时 关联 规则 的 挖掘 。 
图 24.2 即 为 项 集 的 分 类 情况 。 
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图 24.1 规则 的 聚 类 树 
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图 24.2 项 集 的 聚 类 树 
例 4.75 关联 规则 中 还 有 一 种 多 层 关 联 规则 。 在 挖掘 多 层 关 联 规 则 时 , 规则 中 的 项 目 可 以 属 
于 同一 概念 层 ， 也 可 以 属于 不 同 的 概念 层 。 
多 层 关联 规则 的 挖掘 过 程 和 传统 的 关联 规则 挖掘 过 程 一 样 : 先 找 出 所 有 频繁 项 集 ， 再 通过 
频繁 项 集 产 生 强 关联 规则 ， 关 键 在 于 第 一 步 。 可 以 用 多 种 方法 来 进行 相关 的 挖掘 。 
试 对 表 4.8 的 数据 进行 关联 规则 挖掘 , 其 中 各 项 ( 按 衣服 、 外 衣 、 上 衣 、 内 衣 、 裤 子 、 鞋 子 、 
皮鞋 、 拖 鞋 、 帽 子 的 顺序 ) 的 最 小 支持 度 为 [2/3 1/4 1/6 1/4 1/12 1/3 1/12 1/6 1/6]。 
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表 24.8 事务 数据 库 














事 务 项 目 
01 上 衣 、 拖 鞋 
02 内 衣 、 帽 子 
03 内 衣 、 裤 子 
04 拖鞋 、 内 衣 、 上 衣 
05 帽子 
06 皮鞋 





解 : 
按照 一 般 的 约定 , 很 明显 事务 数据 库 的 项 是 不 同 层次 的 概念 , 存在 着 以 下 的 关系 , 即 子孙 ( 下 
层 ) -祖先 (上层 ) 的 关系 ， 如 图 24.3 所 示 。 


衣服 鞋子 帽子 
~ 


图 24.3 关系 图 
在 进行 多 层 关联 规则 挖掘 时 ， 应 注意 以 下 几 点 。 
(1 ) 在 对 项 计数 时 ， 子 孙 项 出 现 表示 祖先 项 也 出 现 。 
(2 ) 存在 子孙 一 祖先 关系 的 项 不 能 同时 出 现 。 
(3 ) 项 的 支持 度 要 满足 各 项 最 小 支持 度 中 的 最 大 值 。 
据 此 ， 便 可 以 编程 计算 : 
>> z={1{' 拖 鞋 ， "上 衣 ' }; {' 帽 子 ' ' 内 衣 ' };{' 内 衣 ' ' 裤 子 '};{' 拖 鞋 '' 内 衣 ' ' 上 衣 '}; 
{ "帽子 '};{' 皮 鞋 '}}; 
>>mins={{' 衣 服 ' 2/3};{' 外 衣 ' 1/4};{' 上 衣 ' ”1/6};{ 7 内衣 ' 1/4};1{' 裤 子 ' 1/12}; 
{" 封 于，1/3};{' 皮 鞋 ' 1/12};{"' 拖 鞋 ' 1/6};{' 帽 子 " 1/6}}; 
>>ia={{' 外 衣 ，' 衣 服 '}; {' 上 家， "衣服 ' ' 外 衣 ' };{' 内 衣 ' ' 衣 服 '};{' 裤 子 '' 衣 服 '' 外 衣 '}; 
{' 皮 鞋 '' 鞋 子 '}{' 拖 鞋 '' 鞋 子 '}}; 
>> [L,rule,L iter,L d]=rule Lay (x,mins,ia); % 多 层 关 联 规则 挖掘 函数 


>> L{1}=' 外 衣 ' ' 内 衣 ' $s 
/2 
' 外 衣 ' "拖鞋 " 
EE 
E20 ' 拖 性 


在 应 用 函数 计算 时 ， 应 注意 以 下 几 点 。 
(1) 输入 的 是 支持 度 ， 而 不 是 支持 度数 ; 
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(2 ) 工 表示 频繁 项 ; 

(3 ) rule 是 以 数字 表示 的 项 及 相应 的 支持 度 ; 

(4) L iter 表 示 的 是 最 后 出 现 的 项 ; 

(5 ) L_d 表 示 的 是 样品 项 关系 的 0、1 数 据 和 矩阵 。 根 据 这 个 和 矩阵、 频繁 项 及 项 便 可 以 计算 频繁 
项 的 支持 度 , 进而 求 出 各 规则 , 限于 篇 幅 在 此 就 不 再 计算 。 读 者 可 以 根据 前 面 例题 中 相应 的 函数 
或 自己 编程 进行 计算 。 
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